Los espacios muéstrales continuos y las variables aleatorias
continuas surgen cuando consideramos cantidades que son medidas en la escala
continua como la altura y pero de personas o el tiempo de vida del virus del
SIDA bajo ciertas condiciones de laboratorio. En el caso continuo reemplazamos
lo s histogramas por curvas continuas. En lugar de histogramas, las
distribuciones de probabilidad continúas son descritas por medio de lineas como
las de la siguiente figura.
La característica principal de estas curvas es el hecho de
que el área bajo la curva de a a b es la probabilidad de que la variable
aleatoria tome algún valor entre a y b.Por lo tanto, el área bajo toda la curva
debe ser igual a uno.
En el primer ejemplo de la figura de arriba la distribución se representa por medio de una recta
horizontal. Si la variable aleatoria toma valores entre c y d, entones la
altura de la recta debe ser $ \frac{1}{d-c}$ para que el área bajo la recta sea
precisamente uno. Esta distribución se conoce como la distribución uniforme y
tiene la propiedad de que la probabilidad de que la variable aleatoria tome un
valor entre a y b es $ \frac{b-a}{d-c}$ y sólo depende de la distancia de a a
b. Por lo tanto, las probabilidades de que la variable aleatoria tome valores
en dos intervalos de igual longitud son iguales. Esto significa que todos los
valores de la variable aleatoria son igualmente probables. Si, por ejemplo, se
tiene una variable aleatoria uniforme que toma valores entre c=-1 y d=1,
entonces d-c = 1-(-1)= 2 y la probabilidad de que la variable tome valores
digamos entre 0.3 y 0.7 es $\frac{0.7-0.3}{2}=0.2$
El segundo ejemplo es una distribución bimodal donde podemos
apreciar que el área bajo la curva cerca de las jorobas es mayor que el área en
el centro o cerca de los extremos. Por lo tanto, la variable aleatoria toma con
mayor probabilidad los valores bajo las jorobas que en el centro o en los extremos.
Las diversas curvas en forma de campana son ejemplos de
distribuciones normales. La distribución normal es uno de los conceptos más
importantes de la estadística. Esto se debe tanto a su importancia teórica como
a que muchas distribuciones de datos reales son prácticamente iguales a una normal.
Aun cuando no puede apreciarse en las figuras de arriba, las curvas normales se
extienden indefinidamente en ambos extremos, cada vez pegándose más al eje horizontal
sin llegarlo a tocar. Afortunadamente en
la práctica no es necesario alargar estas “colas” muy lejos , pues se
encuentran tan cerca del eje horizontal que el área bajo ellas es despreciable
cuando nos alejamos más de cuatro o cinco desviaciones estándar de la media.
Como puede verse de la figuras de arriba, se tiene toda una
familia de distribuciones normales, cada una de ellas determinada por su media
$ \mu$ y su desviación estándar $ \sigma$. La media corresponde al valor en el
eje horizontal donde se encuentra la cima de la curva y la desviación estándar nos
determina que tan abierta o picuda es la curva. Entre mayor es la deviación estándar
la curva se levanta más suavemente. De la forma de campana podemos apreciar que
los valores más probables de una
variable aleatoria normal son los cercanos a
la media, ya que en esa zona las áreas bajo la curva son más grandes.
En la práctica se pueden calcular las áreas bajo la curva
normal, es decir las probabilidades de que la variable tome un valor entre
ciertos números a y b, por medio de tablas especiales, como la tabla mostrada más abajo donde
aparecen las áreas entre los valores 0 y z con z>0, para la curva normal
estándar, es decir, la curva normal con media $\mu$=0 y desviación
estándar $\sigma$=1.
Z
|
0.00
|
0.01
|
0.02
|
0.03
|
0.04
|
0.05
|
0.06
|
0.07
|
0.08
|
0.09
|
0.0
|
0.0000
|
0.0040
|
0.0080
|
0.0120
|
0.0160
|
0.0199
|
0.0239
|
0.0279
|
0.0319
|
0.0359
|
0.1
|
0.0398
|
0.0438
|
0.0478
|
0.0517
|
0.0557
|
0.0596
|
0.0636
|
0.0675
|
0.0714
|
0.0753
|
0.2
|
0.0793
|
0.0832
|
0.0871
|
0.0910
|
0.0948
|
0.0987
|
0.1026
|
0.1064
|
0.1103
|
0.1141
|
0.3
|
0.1179
|
0.1217
|
0.1255
|
0.1293
|
0.1331
|
0.1368
|
0.1406
|
0.1443
|
0.1480
|
0.1517
|
0.4
|
0.1554
|
0.1591
|
0.1628
|
0.1664
|
0.1700
|
0.1736
|
0.1772
|
0.1808
|
0.1844
|
0.1879
|
0.5
|
0.1915
|
0.1950
|
0.1985
|
0.2019
|
0.2054
|
0.2088
|
0.2123
|
0.2157
|
0.2190
|
0.2224
|
0.6
|
0.2257
|
0.2291
|
0.2324
|
0.2357
|
0.2389
|
0.2422
|
0.2454
|
0.2486
|
0.2517
|
0.2549
|
0.7
|
0.2580
|
0.2611
|
0.2642
|
0.2673
|
0.2704
|
0.2734
|
0.2764
|
0.2794
|
0.2823
|
0.2852
|
0.8
|
0.2881
|
0.2910
|
0.2939
|
0.2967
|
0.2995
|
0.3023
|
0.3051
|
0.3078
|
0.3106
|
0.3133
|
0.9
|
0.3159
|
0.3186
|
0.3212
|
0.3238
|
0.3264
|
0.3289
|
0.3315
|
0.3340
|
0.3365
|
0.3389
|
1.0
|
0.3413
|
0.3438
|
0.3461
|
0.3485
|
0.3508
|
0.3531
|
0.3554
|
0.3577
|
0.3599
|
0.3621
|
1.1
|
0.3643
|
0.3665
|
0.3686
|
0.3708
|
0.3729
|
0.3749
|
0.3770
|
0.3790
|
0.3810
|
0.3830
|
1.2
|
0.3849
|
0.3869
|
0.3888
|
0.3907
|
0.3925
|
0.3944
|
0.3962
|
0.3980
|
0.3997
|
0.4015
|
1.3
|
0.4032
|
0.4049
|
0.4066
|
0.4082
|
0.4099
|
0.4115
|
0.4131
|
0.4147
|
0.4162
|
0.4177
|
1.4
|
0.4192
|
0.4207
|
0.4222
|
0.4236
|
0.4251
|
0.4265
|
0.4279
|
0.4292
|
0.4306
|
0.4319
|
1.5
|
0.4332
|
0.4345
|
0.4357
|
0.4370
|
0.4382
|
0.4394
|
0.4406
|
0.4418
|
0.4429
|
0.4441
|
1.6
|
0.4452
|
0.4463
|
0.4474
|
0.4484
|
0.4495
|
0.4505
|
0.4515
|
0.4525
|
0.4535
|
0.4545
|
1.7
|
0.4554
|
0.4564
|
0.4573
|
0.4582
|
0.4591
|
0.4599
|
0.4608
|
0.4616
|
0.4625
|
0.4633
|
1.8
|
0.4641
|
0.4649
|
0.4656
|
0.4664
|
0.4671
|
0.4678
|
0.4686
|
0.4693
|
0.4699
|
0.4706
|
1.9
|
0.4713
|
0.4719
|
0.4726
|
0.4732
|
0.4738
|
0.4744
|
0.4750
|
0.4756
|
0.4761
|
0.4767
|
2.0
|
0.4772
|
0.4778
|
0.4783
|
0.4788
|
0.4793
|
0.4798
|
0.4803
|
0.4808
|
0.4812
|
0.4817
|
2.1
|
0.4821
|
0.4826
|
0.4830
|
0.4834
|
0.4838
|
0.4842
|
0.4846
|
0.4850
|
0.4854
|
0.4857
|
2.2
|
0.4861
|
0.4864
|
0.4868
|
0.4871
|
0.4875
|
0.4878
|
0.4881
|
0.4884
|
0.4887
|
0.4890
|
2.3
|
0.4893
|
0.4896
|
0.4898
|
0.4901
|
0.4904
|
0.4906
|
0.4909
|
0.4911
|
0.4913
|
0.4916
|
2.4
|
0.4918
|
0.4920
|
0.4922
|
0.4925
|
0.4927
|
0.4929
|
0.4931
|
0.4932
|
0.4934
|
0.4936
|
2.5
|
0.4938
|
0.4940
|
0.4941
|
0.4943
|
0.4945
|
0.4946
|
0.4948
|
0.4949
|
0.4951
|
0.4952
|
2.6
|
0.4953
|
0.4955
|
0.4956
|
0.4957
|
0.4959
|
0.4960
|
0.4961
|
0.4962
|
0.4963
|
0.4964
|
2.7
|
0.4965
|
0.4966
|
0.4967
|
0.4968
|
0.4969
|
0.4970
|
0.4971
|
0.4972
|
0.4973
|
0.4974
|
2.8
|
0.4974
|
0.4975
|
0.4976
|
0.4977
|
0.4977
|
0.4978
|
0.4979
|
0.4979
|
0.4980
|
0.4981
|
2.9
|
0.4981
|
0.4982
|
0.4982
|
0.4983
|
0.4984
|
0.4984
|
0.4985
|
0.4985
|
0.4986
|
0.4986
|
3.0
|
0.4987
|
0.4987
|
0.4987
|
0.4988
|
0.4988
|
0.4989
|
0.4989
|
0.4989
|
0.4990
|
0.4990
|
Digamos que deseamos encontrar el área bajo la curva normal estándar entre 0 y 1.45. Entonces buscamos en la tabla en la columna de la izquierda el valor 1.4. El renglón correspondiente es
1.4
|
0.4192
|
0.4207
|
0.4222
|
0.4236
|
0.4251
|
0.4265
|
0.4279
|
0.4292
|
0.4306
|
0.4319
|
El primer valor corresponde a 1.4, el segundo a 1.41, etc.
Por lo tanto, el área entre 0 y 1.45 corresponde al valor 0.4265 que está en la
columna del 0.05.
Utilizando la simetría de la curva alrededor de la media
podemos calcular áreas entre cualesquiera dos valores a y b. Veamos algunos
ejemplos.
a) Encuentra el área bajo la curva normal estándar a la
izquierda de 0.83
Como el área bajo toda la curva es 1, el área que está a la
izquierda del 0 es 0.5; el área que está a la izquierda de 0.83 es igual a la
suma del área a la izquierda del 0 más
el área entre 0 y 0.83. En la tabla encontramos que este valor es igual a
0.2967. El área que buscamos es entonces 0.5+0.2967=0.7967.
b) Encuentra el área bajo la curva normal estándar a la
derecha de 1.07.
El área a la derecha del 0 es 0.5 y la podemos descomponer
como la suma del área entre 0 y 1.07 y el área a la derecha de 1.07. En la
tabla obtenemos que el área entre 0 y 1.97 es 0.3577. Por lo tanto el área a la
derecha de 1.07 es lo que le falta a 0.3577 para llegar a 0.5, es decir
0.5-0.3577=0.1423.
c) Encuentra el área bajo la curva normal estándar entre
0.24 y 1.18.
Si al área entre 0 y 1.18 le restamos el área entre 0 y 0.24
obtenemos el área que buscamos. Por lo tanto, el área entre 0.24 y 1.18 es
0.381-0.0948=0.29.
d) Encuentra el área bajo la curva normal estándar entre
-1.34 y 0.
Por la simetría de la curva alrededor de la media, el área
entre -1.34 y 0 es igual al área entre 0 y 1.34, es decir, 0.4099.
Las siguientes figuras ilustran las áreas de estos ejemplos.
e) Encuentra el área bajo la curva normal estándar entre
-1.48 y 0.12
Esta área es la suma de -1.48 a 0 y el área entre 0 y 0.12,
que es 0.4306 + 0.0478=0.4784.
f) Encuentra el área bajo la curva normal estándar entre
-1.7 y – 0.93.
Debemos observar primero que el número -1.7 está a la
izquierda del 0.93. El área que deseamos calcular es entonces el área de -1.7 a
0 menos el área de -0.93 a 0, esto es , 0.4554-0.
3238=0.1316.
g) Encuentra el área bajo la curva normal estándar a la
izquierda de -1.55.
El área a la izquierda de -1.55 es igual al área a la
derecha de 1.55 que obtenemos al restarle a 0.5 el área entre 0 y 1.55,
0.5-0.4394=0.0606.
h) Encuentra el área bajo la curva normal a la derecha de
-0.47.
Esta área es la suma del área -0.47 a 0 más el área a la
derecha del 0, que por la tabla de arriba vemos que es 0.1808 + 0.500 = 0.6808.
Las siguientes figuras muestran las áreas de estos últimos
cuatro ejemplos.
Las áreas que hemos calculado corresponden a probabilidades
de una variable aleatoria normal con media $\mu$=0 y desviación estándar $\sigma$ =1. Así, de los incisos b), e) y g) sabemos que la
probabilidad de que esta variable tome valores mayores a 1.07 es de 0.1423 la
probabilidad de que tome valores entre -1.48 y 0.12 es de 0.4784, y que la
probabilidad de que tome valores menores a -1.55 es de 0.0606. En principio
sería necesario contar con una tabla similar a la tabla de arriba para cada valor posible de $\mu$ y de $\sigma$.
Afortunadamente esto resulta innecesario pues las probabilidades de cualquier
variable normal se pueden obtener de la
tabla de áreas de la curva normal estándar haciendo un cambio de escala que convierte
unidades de medida en unidades estándar por medio de la fórmula.
$z=\frac{x-\mu}{\sigma}$
Supongamos que la media $\mu$ es 8 y la desviación estándar $\sigma
$ es 2. ¿Cuáles son las probabilidades de que la variable tome valores entre 9
y 11 y entre 7.50 y 10.5?
El valor de z correspondiente a x=9 es de z =$\frac{9-8}{2} =0.5$
y el valor de z correspondiente a x=11 es de z ==$\frac{11-8}{2} =1.5$. En la
tabla de arriba esos valores corresponden a 0.1915 y 0.4332, de modo que la probabilidad de que la
variable tome valores entre 9 y 11 es de
0.2417. Para el segundo caso calculamos los valores de z que corresponden a los
valores de x=7.5 y x=10.5, obtenemos $z=\frac{7.5-8}{2}=\frac{-0.5}{2}=-0.25$ y
z = $\frac{10.5-8}{2}=1.25$. La probabilidad de que la variable tome valores
entre 7.5 y 10.5 corresponde al área bajo la curva normal estándar entre -0.25
y 1.25 .Por medio de la tabla de áreas de la curva normal esta área es
0.0987+0.3944=0.4931.
Resulta interesante averiguar cuáles son las probabilidades
de que una variable aleatoria normal difiera de la media en una , dos o tres
desviaciones estándar. Analicemos primero la probabilidad de que la
probabilidad difiera a lo más en una desviación estándar de la media, esto es,
la probabilidad de que la variable tome valores entre x=$\mu$-s y x=$\mu$ + $\sigma$. Los valores de z
corresponden a z= $\frac{(\mu-\sigma)-\mu}{\sigma}=\frac{-\sigma}{\sigma}= -1$
y $z=\frac{(\mu+\sigma)-\mu}{\sigma} =\frac{\sigma}{\sigma}=1$.
En la tabla de arriba vemos que esta probabilidad
es 0.3413 +0.3413=0.6826. Para el caso de la variable difiera en a lo más
dos desviaciones estándar de la media los valores de x son ahora $\mu$-
2s y x= $\mu$ + 2$\sigma$. Sustituyendo como arriba veremos que z debe de estar
entre $\frac{(\mu-2\sigma)-\mu}{\sigma}=\frac{-2\sigma}{\sigma}=-2$ y
que $
\frac{(\mu+2\sigma)-\mu}{\sigma}=\frac{2\sigma}{\sigma}=2$ y la
probabilidad es 0.4772 +0.4772 = 0.9544. Finalmente, para el caso de tres
desviaciones estándar es claro que los valores de z que se tienen son -3 y 3,
por lo que la probabilidad de que la variable difiera a lo más tres
desviaciones estándar es de 2 x
0.4987=0.9974. En resumen, aproximadamente el 68%, el 95% y el 99.7% de las veces una variable tomara
valores que difieren a lo más de la media en una, dos o tres desviaciones
estándar. Recordemos el teorema de Chevishev que asegura que para cualquier distribución
de frecuencia al menos la proporción $1-\frac{1}{k^2}$ de los datos se encuentra
a lo más de k desviaciones estándar de la media. En particular, si k=2, tenemos
que $1-\frac{1}{2^2}=\frac{3}{4}$, es decir , el 75% de los datos se encuentran
a dos desviaciones estándar de la media. En el caso particular de las
distribuciones de frecuencia de forma de campana este porcentaje aumenta a 95%.
De la misma forma, para distribuciones generales el teorema de Chevishev
asegura que el 88.9% de los datos difieren
a lo más en tres desviaciones estándar de la media, pero para
distribuciones en forma de campana este porcentaje aumenta hasta el 99.7% del
total de los datos,
Hay problemas donde necesitamos encontrar el valor de z dada
cierta área bajo la curva normal estándar. Denotaremos por $z_{t}$ al valor de z
tal que el área bajo la curva normal
estándar a su derecha es igual a t. Veamos cómo determinar $z_{0.35}$. En este caso
deseamos encontrar el valor de z tal que el área a la derecha de z es de 0.35.
Como el área a la derecha de 0 es 0.5, el área bajo la curva normal de 0 al
valor de z que buscamos debe ser 0.5-0.35=0.15. Para encontrar el valor de s
usamos la tabla de areas de la curva normal, pero ahora buscamos primero el
área más cercana a 0.15 , que es de 0.1517.
Esta área corresponde a z=0.39. Por lo tanto $z_{35}$=0.39.
Consideremos ahora dos ejemplos que involucran variables
variables aleatorias que tienen
distribuciones normales.
1.El tiempo que les toma a un grupo de obreros que ha
recibido entrenamiento especial ensamblar una serie de microchips es una
variable aleatoria que tiene aproximadamente una distribución normal con media
$\mu$=14.5 minutos y desviación estándar $\sigma$=2.5 minutos. ¿Cuál es la
probabilidad de que a uno de estos obreros le tome entre 11 y 16 minutos? ¿Cuál
es la probabilidad de que a uno de estos obreros le tome más de 18 minutos?
Para calcular la probabilidad de que a uno de estos obreros
le tome entre 11 y 16 minutos debemos calcular el área bajo la curva normal estándar
entre
$z=\frac{11-14.5}{2.5}=-1.4$ y $z=\frac{16-14.5}{2.5}=0.6$
Que en la tabla de arriba vemos que es de 0.4192 +
0.2257=0.6449. La probabilida de que a uno de los obreros le tome más de 18
minutos es el área bajo la curva normal a la derecha de $z=\frac{18-14.5}{2.5}=1.4$
que es 0.5-0.4192=0.0808.
2. Los aguacates que se producen en una huerta tienen una
media de 234 gramos y una desviación estándar de 33 gramos. Si el peso de los
aguacates tiene una distribución normal, ¿cuál es el peso del 90% de los
aguacates más grandes? El 90% de los aguacates más pesados consiste de los aguacates que se encuentran a
la derecha de la media (50% ) y al 40%
de los aguacates que se encuentran a la izquierda de la media. Debemos determinar el valor de $z_{0.4}$ en la
tabla de aéreas bajo la curva normal . El valor más cercano a 0.4 es 0.3997 que
corresponde a z =1.28. Esto significa que el peso de los aguacates no debe estar más a la izquierda de 1.28
desviciones estándar de la media esto es , 1.28 x 33 =42.24 gramos. El 90% de
los aguacates más grandes debe pesar cuando menos 234-42.24=191.76 gramos.
Podemos también obtener este resultado
despejando el valor de x de la ecuación
$ z=-1.28=\frac{x-234}{33}$
Pues entonces (-1.28)(33)=x-234,
Por lo que x=234-(1.28)(33)
=191.76.
La distribución normal es también muy útil por tener la característica
de aproximar a la distribución binomial cuando el número de ensayos n es
relativamente grande y la probabilidad p de éxito en cada ensayo es cercana
a 0.5. Las distribuciones binomiales con
estas características son en forma de campana.
Puesto que la media de la distribución binomial es np y la
desviación estándar $\sqrt[]{np(1-p)}$, la distribución normal que mejor aproxima a la binomial debe
tener esta media y desviación estándar. Esta aproximación es buena si tanto np
como n(1-p) son ambos mayores que 5. Estas condiciones se cumplen cuando n es
suficientemente grande.
Veamos qué tan buena resulta esta aproximación en algunos
casos.
a) La probabilidad de obtener cuatro cincos o seises al
tirar quince veces un dado es
$f(4)=\displaystyle\binom{15}{4}(\frac{1}{3})^4
(\frac{2}{3})^{11}$=(1365)(0.01234)(0.01156)=0.1948
Estamos en el límite para aproximar esta distribución
binomial por la distribución normal ya que np=5 y n(1-p)=10. La media de la distribución
binomial es $\mu$=np =5 y su desviación estándar es $\sigma= \sqrt[]{(np(1-p))}=\sqrt[]{10/3}=1.8257$. Para aproximar la distribución binomial
que es discreta por la normal que es continua
calculamos la probabilidad de que la normal tome valores cercanos a
4 es decir la probabilidad de que x tome
valores entre 3.5 y 4.5. En unidades estándar estos valores son
$z=\frac{3.5-5}{1.8257}=0.8216$ y $z=\frac{4.5-5}{1.8257}=-0.2739$
De la tabla de áreas bajo la curva normal tenemos que la probabilidad que buscamos es
0.2939-0.1064=0.1875.
b) Se tira una moneda veinte veces. La probabilidad de
obtener 12 águilas es
$f(12)=\displaystyle\binom{20}{12}(\frac{1}{2})^{12}
(\frac{1}{2})^{8}$=(125970)(0.000244)(0.003906)=0.1201
Ahora np =n(1-p)=20 x 0.5 = 10, que es mayor que 5. La media
de la distribución binomial es np=10 y la desviación estándar es $\sqrt[]{np(1-p)}=\sqrt[]{5}$=2.236.
Debemos buscar la probabilidad de que la variable normal x tome valores entre
11.5 y 12.5, que en medidas estándar son
$z=\frac{11.5-10}{2.236}=0.6708$ y
$z=\frac{12.5-10}{2.236}=1.118$
Por medio de la tabla de áreas bajo la curva normal obtenemos que esta posibilidad es
0.3686-0.2486=0.12.
La aproximación de la binomial por medio de una normal en
este par de ejemplos no simplifica los cálculos numéricos, pero en situaciones
donde el cálculo de probabilidades binomiales es extremadamente laborioso la
distribución normal resulta sumamente útil.
Un grupo de 100 enfermos de SIDA se somete a un nuevo
tratamiento donde cada uno de los pacientes sobrevive más de cinco años al
tratamiento con probabilidad de 0.4 ¿Cuál es la probabilidad de que al menos 50
de los 100 pacientes sobrevivan más de cinco años de tratamiento?
Si intentáramos calcular esta probabilidad a partir de las
fórmulas de la distribución binomial deberíamos calcular primero las
probabilidades de que sobrevivan más cinco años 50, 51,52,…100 pacientes y
después sumar estas 51 probabilidades. Además, el cálculo de cada una de estas
probabilidades es muy complejo pues involucra el producto de números extremadamente grandes (los
coeficientes binomiales) con números extremadamente pequeños (las potencias de
p y 1-p). Sin embargo la aproximación con la normal es muy sencilla. Debemos
primero verificar que np=100 x 0.4 =40 y n(1-p)=100 x 0.6 son ambos mayores que
5. La media es np =40 y la desviación estándar es $\sqrt[]{np(1-p)}=\sqrt[]{24}$=4.8989. La
probabilidad de que $z=\frac{49.5-40}{4.8989}$=1.939 esta variable normal tome
valores mayores a 49.5 corresponde al área a la derecha de 1.94. En la tabla de
áreas bajo la curva normal vemos que el área bajo la normal estándar de 0 a
1.94 es de 0.4738, por lo que el área
que va a la derecha de 1.94 es 0.5-0.4738=0.0262. El valor real de esta probabilidad,
obtenido por medio de una hoja de cálculo,
es de 0.0271, por lo que el error en la aproximación es del orden
0.0009.
hola, muy interesante el blog. Porque me aparece el mensaje math processing error en ciertas partes y no se logra leer.saludos y gracias.
ResponderEliminarMuy probablemente por el explorador que uses, se que lo ideal seria que el blog se viera bien en cualquier explorador pero he notado que en ciertas versiones de explorer no se ven bien los codigos, y en otro si.
ResponderEliminar¿porqué usas 0.5 en el ejemplo de los 18 minutos de ensamble?
ResponderEliminar