sábado, 7 de julio de 2012

La distribución normal

Consideremos de nuevo la distribución  del número de automóviles recuperados de losocho robados. La siguiente figura muestra su histograma. Si la base de cada una de las barras es igual a uno, entonces la  altura de la barra es igual al área de la barra. Por lo tanto, la probabilidad de que la variable tome cierto valor es igual al área de la barra correspondiente y, por ser una distribución de probabilidad, el área de  todas las barras es igual a uno. Esto significa que, por ejemplo la probabilidad de recuperar entre 3 y 5 automóviles  es igual al rea de las barras que corresponden a los valores 3,4 y 6, que es 0.124 +0.232+0.277= 0.633. Utilizaremos esta propiedad para definir las distribuciones de probabilidad de variables aleatorias continuas.

Los espacios muéstrales continuos y las variables aleatorias continuas surgen cuando consideramos cantidades que son medidas en la escala continua como la altura y pero de personas o el tiempo de vida del virus del SIDA bajo ciertas condiciones de laboratorio. En el caso continuo reemplazamos lo s histogramas por curvas continuas. En lugar de histogramas, las distribuciones de probabilidad continúas son descritas por medio de lineas  como las de la siguiente figura.


La característica principal de estas curvas es el hecho de que el área bajo la curva de a a b es la probabilidad de que la variable aleatoria tome algún valor entre a y b.Por lo tanto, el área bajo toda la curva debe ser igual a uno.


En el primer ejemplo de la figura de arriba la distribución  se representa por medio de una recta horizontal. Si la variable aleatoria toma valores entre c y d, entones la altura de la recta debe ser $ \frac{1}{d-c}$ para que el área bajo la recta sea precisamente uno. Esta distribución se conoce como la distribución uniforme y tiene la propiedad de que la probabilidad de que la variable aleatoria tome un valor entre a y b es $ \frac{b-a}{d-c}$ y sólo depende de la distancia de a a b. Por lo tanto, las probabilidades de que la variable aleatoria tome valores en dos intervalos de igual longitud son iguales. Esto significa que todos los valores de la variable aleatoria son igualmente probables. Si, por ejemplo, se tiene una variable aleatoria uniforme que toma valores entre c=-1 y d=1, entonces d-c = 1-(-1)= 2 y la probabilidad de que la variable tome valores digamos entre 0.3 y 0.7 es $\frac{0.7-0.3}{2}=0.2$


El segundo ejemplo es una distribución bimodal donde podemos apreciar que el área bajo la curva cerca de las jorobas es mayor que el área en el centro o cerca de los extremos. Por lo tanto, la variable aleatoria toma con mayor probabilidad los valores bajo las jorobas que en el centro  o en los extremos.
Las diversas curvas en forma de campana son ejemplos de distribuciones normales. La distribución normal es uno de los conceptos más importantes de la estadística. Esto se debe tanto a su importancia teórica como a que muchas distribuciones de datos reales son prácticamente iguales a una normal. Aun cuando no puede apreciarse en las figuras de arriba, las curvas normales se extienden indefinidamente en ambos extremos, cada vez pegándose más al eje horizontal sin llegarlo a tocar. Afortunadamente  en la práctica no es necesario alargar estas “colas” muy lejos , pues se encuentran tan cerca del eje horizontal que el área bajo ellas es despreciable cuando nos alejamos más de cuatro o cinco desviaciones estándar de la media.
Como puede verse de la figuras de arriba, se tiene toda una familia de distribuciones normales, cada una de ellas determinada por su media $ \mu$ y su desviación estándar $ \sigma$. La media corresponde al valor en el eje horizontal donde se encuentra la cima de la curva y la desviación estándar nos determina que tan abierta o picuda es la curva. Entre mayor es la deviación estándar la curva se levanta más suavemente. De la forma de campana podemos apreciar que los valores  más probables de una variable aleatoria normal son los cercanos a  la media, ya que en esa zona las áreas bajo la curva son más grandes.


En la práctica se pueden calcular las áreas bajo la curva normal, es decir las probabilidades de que la variable tome un valor entre ciertos números a y b, por medio de tablas especiales, como la tabla mostrada más abajo donde aparecen las áreas entre los valores 0 y z con z>0, para la curva normal estándar, es decir, la curva normal con media $\mu$=0 y desviación estándar  $\sigma$=1.

Z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.0000
0.0040
0.0080
0.0120
0.0160
0.0199
0.0239
0.0279
0.0319
0.0359
0.1
0.0398
0.0438
0.0478
0.0517
0.0557
0.0596
0.0636
0.0675
0.0714
0.0753
0.2
0.0793
0.0832
0.0871
0.0910
0.0948
0.0987
0.1026
0.1064
0.1103
0.1141
0.3
0.1179
0.1217
0.1255
0.1293
0.1331
0.1368
0.1406
0.1443
0.1480
0.1517
0.4
0.1554
0.1591
0.1628
0.1664
0.1700
0.1736
0.1772
0.1808
0.1844
0.1879
0.5
0.1915
0.1950
0.1985
0.2019
0.2054
0.2088
0.2123
0.2157
0.2190
0.2224
0.6
0.2257
0.2291
0.2324
0.2357
0.2389
0.2422
0.2454
0.2486
0.2517
0.2549
0.7
0.2580
0.2611
0.2642
0.2673
0.2704
0.2734
0.2764
0.2794
0.2823
0.2852
0.8
0.2881
0.2910
0.2939
0.2967
0.2995
0.3023
0.3051
0.3078
0.3106
0.3133
0.9
0.3159
0.3186
0.3212
0.3238
0.3264
0.3289
0.3315
0.3340
0.3365
0.3389
1.0
0.3413
0.3438
0.3461
0.3485
0.3508
0.3531
0.3554
0.3577
0.3599
0.3621
1.1
0.3643
0.3665
0.3686
0.3708
0.3729
0.3749
0.3770
0.3790
0.3810
0.3830
1.2
0.3849
0.3869
0.3888
0.3907
0.3925
0.3944
0.3962
0.3980
0.3997
0.4015
1.3
0.4032
0.4049
0.4066
0.4082
0.4099
0.4115
0.4131
0.4147
0.4162
0.4177
1.4
0.4192
0.4207
0.4222
0.4236
0.4251
0.4265
0.4279
0.4292
0.4306
0.4319
1.5
0.4332
0.4345
0.4357
0.4370
0.4382
0.4394
0.4406
0.4418
0.4429
0.4441
1.6
0.4452
0.4463
0.4474
0.4484
0.4495
0.4505
0.4515
0.4525
0.4535
0.4545
1.7
0.4554
0.4564
0.4573
0.4582
0.4591
0.4599
0.4608
0.4616
0.4625
0.4633
1.8
0.4641
0.4649
0.4656
0.4664
0.4671
0.4678
0.4686
0.4693
0.4699
0.4706
1.9
0.4713
0.4719
0.4726
0.4732
0.4738
0.4744
0.4750
0.4756
0.4761
0.4767
2.0
0.4772
0.4778
0.4783
0.4788
0.4793
0.4798
0.4803
0.4808
0.4812
0.4817
2.1
0.4821
0.4826
0.4830
0.4834
0.4838
0.4842
0.4846
0.4850
0.4854
0.4857
2.2
0.4861
0.4864
0.4868
0.4871
0.4875
0.4878
0.4881
0.4884
0.4887
0.4890
2.3
0.4893
0.4896
0.4898
0.4901
0.4904
0.4906
0.4909
0.4911
0.4913
0.4916
2.4
0.4918
0.4920
0.4922
0.4925
0.4927
0.4929
0.4931
0.4932
0.4934
0.4936
2.5
0.4938
0.4940
0.4941
0.4943
0.4945
0.4946
0.4948
0.4949
0.4951
0.4952
2.6
0.4953
0.4955
0.4956
0.4957
0.4959
0.4960
0.4961
0.4962
0.4963
0.4964
2.7
0.4965
0.4966
0.4967
0.4968
0.4969
0.4970
0.4971
0.4972
0.4973
0.4974
2.8
0.4974
0.4975
0.4976
0.4977
0.4977
0.4978
0.4979
0.4979
0.4980
0.4981
2.9
0.4981
0.4982
0.4982
0.4983
0.4984
0.4984
0.4985
0.4985
0.4986
0.4986
3.0
0.4987
0.4987
0.4987
0.4988
0.4988
0.4989
0.4989
0.4989
0.4990
0.4990


Digamos que deseamos encontrar el área bajo la curva normal estándar entre 0 y 1.45. Entonces buscamos en la tabla en la columna de la izquierda el valor 1.4. El renglón correspondiente es

1.4
0.4192
0.4207
0.4222
0.4236
0.4251
0.4265
0.4279
0.4292
0.4306
0.4319
El primer valor corresponde a 1.4, el segundo a 1.41, etc. Por lo tanto, el área entre 0 y 1.45 corresponde al valor 0.4265 que está en la columna del 0.05.
Utilizando la simetría de la curva alrededor de la media podemos calcular áreas entre cualesquiera dos valores a y b. Veamos algunos ejemplos.
a) Encuentra el área bajo la curva normal estándar a la izquierda de 0.83
Como el área bajo toda la curva es 1, el área que está a la izquierda del 0 es 0.5; el área que está a la izquierda de 0.83 es igual a la suma del área  a la izquierda del 0 más el área entre 0 y 0.83. En la tabla encontramos que este valor es igual a 0.2967. El área que buscamos es entonces 0.5+0.2967=0.7967.
b) Encuentra el área bajo la curva normal estándar a la derecha de 1.07.
El área a la derecha del 0 es 0.5 y la podemos descomponer como la suma del área entre 0 y 1.07 y el área a la derecha de 1.07. En la tabla obtenemos que el área entre 0 y 1.97 es 0.3577. Por lo tanto el área a la derecha de 1.07 es lo que le falta a 0.3577 para llegar a 0.5, es decir 0.5-0.3577=0.1423.
c) Encuentra el área bajo la curva normal estándar entre 0.24 y 1.18.
Si al área entre 0 y 1.18 le restamos el área entre 0 y 0.24 obtenemos el área que buscamos. Por lo tanto, el área entre 0.24 y 1.18 es 0.381-0.0948=0.29.
d) Encuentra el área bajo la curva normal estándar entre -1.34 y 0.
Por la simetría de la curva alrededor de la media, el área entre -1.34 y 0 es igual al área entre 0 y 1.34, es decir, 0.4099.
Las siguientes figuras ilustran las áreas de estos ejemplos.



e) Encuentra el área bajo la curva normal estándar entre -1.48 y 0.12
Esta área es la suma de -1.48 a 0 y el área entre 0 y 0.12, que es 0.4306 + 0.0478=0.4784.
f) Encuentra el área bajo la curva normal estándar entre -1.7 y – 0.93.
Debemos observar primero que el número -1.7 está a la izquierda del 0.93. El área que deseamos calcular es entonces el área de -1.7 a 0 menos el área de -0.93 a 0, esto es , 0.4554-0.
3238=0.1316.
g) Encuentra el área bajo la curva normal estándar a la izquierda de -1.55.
El área a la izquierda de -1.55 es igual al área a la derecha de 1.55 que obtenemos al restarle a 0.5 el área entre 0 y 1.55, 0.5-0.4394=0.0606.
h) Encuentra el área bajo la curva normal a la derecha de -0.47.
Esta área es la suma del área -0.47 a 0 más el área a la derecha del 0, que por la tabla de arriba vemos que es 0.1808 + 0.500 = 0.6808.
Las siguientes figuras muestran las áreas de estos últimos cuatro ejemplos.


Las áreas que hemos calculado corresponden a probabilidades de una variable aleatoria normal con media $\mu$=0 y desviación estándar  $\sigma$ =1. Así, de  los incisos b), e) y g) sabemos que la probabilidad de que esta variable tome valores mayores a 1.07 es de 0.1423 la probabilidad de que tome valores entre -1.48 y 0.12 es de 0.4784, y que la probabilidad de que tome valores menores a -1.55 es de 0.0606. En principio sería necesario contar con una tabla similar a la tabla de arriba  para cada valor posible de $\mu$ y de $\sigma$. Afortunadamente esto resulta innecesario pues las probabilidades de cualquier variable normal se pueden  obtener de la tabla de áreas de la curva normal estándar  haciendo un cambio de escala que convierte unidades de medida en unidades estándar por medio de la fórmula.
$z=\frac{x-\mu}{\sigma}$
Supongamos que la  media  $\mu$ es 8 y la desviación estándar $\sigma $ es 2. ¿Cuáles son las probabilidades de que la variable tome valores entre 9 y 11  y entre 7.50 y 10.5?
El valor de z correspondiente a x=9 es de z =$\frac{9-8}{2} =0.5$ y el valor de z correspondiente a x=11 es de z ==$\frac{11-8}{2} =1.5$. En la tabla de arriba esos valores corresponden a 0.1915 y  0.4332, de modo que la probabilidad de que la variable tome valores entre  9 y 11 es de 0.2417. Para el segundo caso calculamos los valores de z que corresponden a los valores de x=7.5 y x=10.5, obtenemos $z=\frac{7.5-8}{2}=\frac{-0.5}{2}=-0.25$ y z = $\frac{10.5-8}{2}=1.25$. La probabilidad de que la variable tome valores entre 7.5 y 10.5 corresponde al área bajo la curva normal estándar entre -0.25 y 1.25 .Por medio de la tabla de áreas de la curva normal esta área es 0.0987+0.3944=0.4931.
Resulta interesante averiguar cuáles son las probabilidades de que una variable aleatoria normal difiera de la media en una , dos o tres desviaciones estándar. Analicemos primero la probabilidad de que la probabilidad difiera a lo más en una desviación estándar de la media, esto es, la probabilidad de que la variable tome valores entre x=$\mu$-s  y x=$\mu$ + $\sigma$. Los valores de z corresponden  a z= $\frac{(\mu-\sigma)-\mu}{\sigma}=\frac{-\sigma}{\sigma}= -1$ y $z=\frac{(\mu+\sigma)-\mu}{\sigma} =\frac{\sigma}{\sigma}=1$.

En la tabla de arriba vemos  que esta probabilidad  es 0.3413 +0.3413=0.6826. Para el caso de la variable difiera en a lo más dos desviaciones estándar de la media los valores de x son ahora $\mu$- 2s y x= $\mu$ + 2$\sigma$. Sustituyendo como arriba veremos que z debe de estar entre   $\frac{(\mu-2\sigma)-\mu}{\sigma}=\frac{-2\sigma}{\sigma}=-2$ y que $  \frac{(\mu+2\sigma)-\mu}{\sigma}=\frac{2\sigma}{\sigma}=2$ y la probabilidad es 0.4772 +0.4772 = 0.9544. Finalmente, para el caso de tres desviaciones estándar es claro que los valores de z que se tienen son -3 y 3, por lo que la probabilidad de que la variable difiera a lo más tres desviaciones estándar es de  2 x 0.4987=0.9974. En resumen, aproximadamente el 68%, el 95% y el  99.7% de las veces una variable tomara valores que difieren a lo más de la media en una, dos o tres desviaciones estándar. Recordemos el teorema de Chevishev que asegura que para cualquier distribución de frecuencia al menos la proporción $1-\frac{1}{k^2}$ de los datos se encuentra a lo más de k desviaciones estándar de la media. En particular, si k=2, tenemos que $1-\frac{1}{2^2}=\frac{3}{4}$, es decir , el 75% de los datos se encuentran a dos desviaciones estándar de la media. En el caso particular de las distribuciones de frecuencia de forma de campana este porcentaje aumenta a 95%. De la misma forma, para distribuciones generales el teorema de Chevishev asegura que el 88.9% de los datos difieren  a lo más en tres desviaciones estándar de la media, pero para distribuciones en forma de campana este porcentaje aumenta hasta el 99.7% del total de los datos,
Hay problemas donde necesitamos encontrar el valor de z dada cierta área bajo la curva normal estándar. Denotaremos por $z_{t}$ al valor de z tal que el área  bajo la curva normal estándar a su derecha es igual a t. Veamos cómo determinar $z_{0.35}$. En este caso deseamos encontrar el valor de z tal que el área a la derecha de z es de 0.35.



Como el área a la derecha de 0  es 0.5, el área bajo la curva normal de 0 al valor de z que buscamos debe ser 0.5-0.35=0.15. Para encontrar el valor de s usamos la tabla de areas de la curva normal, pero ahora buscamos primero el área más cercana a 0.15 , que es de 0.1517.

Esta área corresponde a z=0.39. Por lo tanto $z_{35}$=0.39.

Consideremos ahora dos ejemplos que involucran variables variables  aleatorias que tienen distribuciones normales.

1.El tiempo que les toma a un grupo de obreros que ha recibido entrenamiento especial ensamblar una serie de microchips es una variable aleatoria que tiene aproximadamente una distribución normal con media $\mu$=14.5 minutos y desviación estándar $\sigma$=2.5 minutos. ¿Cuál es la probabilidad de que a uno de estos obreros le tome entre 11 y 16 minutos? ¿Cuál es la probabilidad de que a uno de estos obreros le tome más de 18 minutos?

Para calcular la probabilidad de que a uno de estos obreros le tome entre 11 y 16 minutos debemos calcular el área bajo la curva normal estándar entre

  $z=\frac{11-14.5}{2.5}=-1.4$    y    $z=\frac{16-14.5}{2.5}=0.6$


Que en la tabla de arriba vemos que es de 0.4192 + 0.2257=0.6449. La probabilida de que a uno de los obreros le tome más de 18 minutos es el área bajo la curva normal a la derecha de $z=\frac{18-14.5}{2.5}=1.4$ que es 0.5-0.4192=0.0808.


2. Los aguacates que se producen en una huerta tienen una media de 234 gramos y una desviación estándar de 33 gramos. Si el peso de los aguacates tiene una distribución normal, ¿cuál es el peso del 90% de los aguacates más grandes? El 90% de los aguacates más pesados  consiste de los aguacates que se encuentran a la derecha de la media (50% )  y al 40% de los aguacates que se encuentran a la izquierda de la media.  Debemos determinar el valor de $z_{0.4}$ en la tabla de aéreas bajo la curva normal . El valor más cercano a 0.4 es 0.3997 que corresponde a z =1.28. Esto significa que el peso de los aguacates  no debe estar más a la izquierda de 1.28 desviciones estándar de la media esto es , 1.28 x 33 =42.24 gramos. El 90% de los aguacates más grandes debe pesar cuando menos 234-42.24=191.76 gramos. Podemos también obtener este resultado  despejando el valor de x de la ecuación
$ z=-1.28=\frac{x-234}{33}$
Pues entonces (-1.28)(33)=x-234,
Por lo que x=234-(1.28)(33)
=191.76.


La distribución normal es también muy útil por tener la característica de aproximar a la distribución binomial cuando el número de ensayos n es relativamente grande y la probabilidad p de éxito en cada ensayo es cercana a  0.5. Las distribuciones binomiales con estas características son en forma de campana.
Puesto que la media de la distribución binomial es np y la desviación estándar $\sqrt[]{np(1-p)}$, la distribución  normal que mejor aproxima a la binomial debe tener esta media y desviación estándar. Esta aproximación es buena si tanto np como n(1-p) son ambos mayores que 5. Estas condiciones se cumplen cuando n es suficientemente grande.
Veamos qué tan buena resulta esta aproximación en algunos casos.
a) La probabilidad de obtener cuatro cincos o seises al tirar quince veces un dado es
$f(4)=\displaystyle\binom{15}{4}(\frac{1}{3})^4 (\frac{2}{3})^{11}$=(1365)(0.01234)(0.01156)=0.1948
Estamos en el límite para aproximar esta distribución binomial por la distribución normal ya que np=5 y n(1-p)=10. La media de la distribución binomial es $\mu$=np =5 y su desviación estándar es $\sigma= \sqrt[]{(np(1-p))}=\sqrt[]{10/3}=1.8257$. Para aproximar la distribución binomial que es discreta por la normal que es continua  calculamos la probabilidad de que la normal tome valores cercanos a 4  es decir la probabilidad de que x tome valores entre 3.5 y 4.5. En unidades estándar estos valores son
$z=\frac{3.5-5}{1.8257}=0.8216$     y    $z=\frac{4.5-5}{1.8257}=-0.2739$ 
De la tabla de áreas bajo la curva normal  tenemos que la probabilidad que buscamos es 0.2939-0.1064=0.1875.
b) Se tira una moneda veinte veces. La probabilidad de obtener 12 águilas es
$f(12)=\displaystyle\binom{20}{12}(\frac{1}{2})^{12} (\frac{1}{2})^{8}$=(125970)(0.000244)(0.003906)=0.1201
Ahora np =n(1-p)=20 x 0.5 = 10, que es mayor que 5. La media de la distribución binomial es np=10 y la desviación estándar es $\sqrt[]{np(1-p)}=\sqrt[]{5}$=2.236. Debemos buscar la probabilidad de que la variable normal x tome valores entre 11.5 y 12.5, que en medidas estándar son
$z=\frac{11.5-10}{2.236}=0.6708$     y    $z=\frac{12.5-10}{2.236}=1.118$ 
Por medio de la tabla de áreas bajo la curva normal  obtenemos que esta posibilidad es 0.3686-0.2486=0.12.
La aproximación de la binomial por medio de una normal en este par de ejemplos no simplifica los cálculos numéricos, pero en situaciones donde el cálculo de probabilidades binomiales es extremadamente laborioso la distribución normal resulta sumamente útil.
Un grupo de 100 enfermos de SIDA se somete a un nuevo tratamiento donde cada uno de los pacientes sobrevive más de cinco años al tratamiento con probabilidad de 0.4 ¿Cuál es la probabilidad de que al menos 50 de los 100 pacientes sobrevivan más de cinco años de tratamiento?
Si intentáramos calcular esta probabilidad a partir de las fórmulas de la distribución binomial deberíamos calcular primero las probabilidades de que sobrevivan más cinco años 50, 51,52,…100 pacientes y después sumar estas 51 probabilidades. Además, el cálculo de cada una de estas probabilidades es muy complejo pues involucra el producto de  números extremadamente grandes (los coeficientes binomiales) con números extremadamente pequeños (las potencias de p y 1-p). Sin embargo la aproximación con la normal es muy sencilla. Debemos primero verificar que np=100 x 0.4 =40 y n(1-p)=100 x 0.6 son ambos mayores que 5. La media es np =40 y la desviación estándar  es $\sqrt[]{np(1-p)}=\sqrt[]{24}$=4.8989. La probabilidad de que $z=\frac{49.5-40}{4.8989}$=1.939 esta variable normal tome valores mayores a 49.5 corresponde al área a la derecha de 1.94. En la tabla de áreas bajo la curva normal vemos que el área bajo la normal estándar de 0 a 1.94  es de 0.4738, por lo que el área que va a la derecha de 1.94 es 0.5-0.4738=0.0262. El valor real de esta probabilidad, obtenido por medio de una hoja de cálculo,  es de 0.0271, por lo que el error en la aproximación es del orden 0.0009.

3 comentarios:

danelect23 dijo...

hola, muy interesante el blog. Porque me aparece el mensaje math processing error en ciertas partes y no se logra leer.saludos y gracias.

Timur dijo...

Muy probablemente por el explorador que uses, se que lo ideal seria que el blog se viera bien en cualquier explorador pero he notado que en ciertas versiones de explorer no se ven bien los codigos, y en otro si.

Cpintodominguez dijo...

¿porqué usas 0.5 en el ejemplo de los 18 minutos de ensamble?