martes, 24 de julio de 2012

Intervalos de confianza para medias


EL objetivo de la estadística inferencial es el hacer generalizaciones basadas en muestras. Una de las aplicaciones más frecuentes es la estimación de medias. Supongamos que tenemos una muestra de 30 lecturas durante cierto periodo invernal del nivel de ozono en una zona de la ciudad de México. En la tabla tenemos
La media de esta muestra es $\overline{x}$=213.5 imecas. Si ésta es la única información que poseemos, podemos emplear este valor como una estimación de la media del nivel de ozono en la zona durante la época invernal. Una estimación así es llamada una estimación puntual pues consiste de un único número o punto de la recta real. A pesar de que este tipo de estimación es muy natural, no brinda información sobre el tamaño del error. En un post anterior observamoscomo la desviación estándar de la población y el tamaño de la muestradeterminan la variabilidad de la distribución muestral de las medias, ya queentre menor sea el error estándar  de lamedia mejor será nuestra estimación puntual. Una forma alternativa que brinda más información consiste en estimar  la media por medio de un intervalo. Recordemos que un intervalo de números reales consiste en todos aquellos números reales que se encuentran entre dos valores o límites del intervalo. Por ejemplo, los números que se encuentran entre 5.45 y 8.22 forman el intervalo $\left\{{t|5.45 < t < 8.22}\right\}$. El teorema del límite central nos permite entonces asociar a un intervalo alrededor de nuestro valor de $\bar{x}$=213.5 una probabilidad o grado de certidumbre de que la media que estimamos se encuentre efectivamente entre estos límites. Una estimación por un intervalo consiste entonces de un intervalo y de una probabilidad de que la media se encuentre en este intervalo.


Una dificultad inmediata para realizar estimaciones por intervalo es que la probabilidad asociada al intervalo depende de la variabilidad de la distribución muestral de las medias, es decir de la desviación estándar, y ésta a su vez depende del tamaño de la muestra y de la desviación estándar de la población. Cuando no se tiene mayor  información acerca de la desviación estándar de la población $\sigma$, tomamos la desviación estándar de la muestra s en lugar de $\sigma$. En el caso del ozono, como se trata de una muestra, la desviación estándar está dada por
$s=\sqrt[]{\frac{\sum(x-\bar{x})^2}{n-1}}=\sqrt[]{\frac{(178-213.5)^2+L+(193-213.5)^2}{29}}=24.87$
También podríamos haber utilizado la fórmula
$ s=\sqrt[]{\frac{n \left |{\sum x^2}\right |-(\sum x)^2}{n(n-1)}}$

Para calcular este valor. Debido a que el número total de posibles lecturas N es muy grande, podemos entonces tomar como error estándar de la media a
$\sigma_\bar{x}$=$\frac{\sigma}{\sqrt[]{n}}=\frac{24.87}{\sqrt[]{30}}=4.54.$
Supongamos ahora que deseamos establecer los límites del intervalo con centro en 213.5 para el cual la probabilidad de que la media se encuentre ahí es de 0.8. Si buscamos en la tabla de áreas bajo la curva normal el valor de z que corresponde a 0.8/2 = 0.4 obtenemos que z=1.28. Por lo tanto, el área bajo la curva normal estándar entre -1.28 y 1.28 es 0.8 y como esto es en unidades estándar equivale a
$ -1.28 < \frac{213.5-\mu}{4.54} < 1.28.$
Si multiplicamos esta desigualdad por 4.54 se obtiene
-5.81 < 213.5-$\mu $ < 5.81
Que al restar 213.5 equivale a
-219.3 < -$\mu $ < -207.7.
Finalmente, recordando que al multiplicar una desigualdad por -1 ésta se invierte, se tiene
207.7  < $\mu$ < 219.3
Este es el intervalo buscado e indica que la media $\mu $ se encuentra entre 207.7 y 219.3 con probabilidad 0.8. A un intervalo como este se le conoce como un intervalo de confianza, a sus extremos como límites de confianza y a la probabilidad asociada como grado de confianza. Con el objeto de no repetir este desarrollo cada vez que deseemos determinar un intervalo de confianza es fácil ver que

Si la, población es grande en relación al tamaño de la muestra (N > 20n) y el tamaño de la muestra es mayor o igual que 30 el intervalo grande confianza para $\mu$ de grado de confianza $\alpha$ es
$\bar{x} - z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}} <  \mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$
Donde el área bajo la curva normal estándar entre 0 y $z_0$ es $\alpha$ /2 , esto es, con un grado de confianza $\alpha$ el error al estimar la media por $\bar{x}$ es menor a
 $z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$


Cuando la desviación estándar de la población $\sigma$ es desconocida y n es grande  ($n\geq30$) podemos sustituir $\sigma $ por la desviación estándar de la muestra s . Los grados de confianza más empleados son 0.95 y 0.99 y sus correspondientes $z_0$ son 1.96 y 2.575. A estos intervalos también se les conoce como intervalos de confianza del 95% y 99%.
Para encontrar estos intervalos de confianza en el caso del nivel de contaminación de ozono en la ciudad de México tenemos que
$\bar{x} - z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}} <  \mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$
$213.5 - 1.96 \cdot{\frac{24.87}{\sqrt[]{30}}} <  \mu < 213.5 + 1.96\cdot{\frac{24.87}{\sqrt[]{30}}}$
$213.5-8.9 <  \mu < 213.5 + 8.9$
Por lo que el intervalo de confianza del 95% es 204.6 < $\mu$  < 222.4. Por lo tanto, sabemos que con probabilidad 0.95 la media se encuentra entre 204.6 y 222.4, o bien, que con un grado de confianza del 95 % el error al estimar la media como 213.5 es menor a 8.9. Si deseamos aumentar el grado de certeza al 99% entonces el intervalo será
$ \bar{x} -z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}=213.5-2.575\cdot{\frac{24.87}{\sqrt[]{30}}} < \mu < 213.5 +2.575 \cdot{\frac{24.87}{\sqrt[]{30}}}=\bar{x}+ z_o\cdot{\frac{\sigma}{\sqrt[]{n}}}$
Que es 201.7 < $\mu$ < 225.2. Observemos que entre mayor sea la certidumbre (grado de confianza) mayor es también el intervalo.


Consideremos de nuevo el ejemplodel post anterior de la región agrícola de 200000 hectareas sonde se siembratrigo. Se realizó una muestra de 900 hectareas con una productividad media de $\bar{x}$ =3.4 toneladas y donde la desviación estándar de la productividad de trigo en la región es de $\sigma$=  0.8 toneladas. Obtengamos ahora los intervalos de confianza de 90%, 95% y 99%.
Como el número total de hectáreas es muy grande podemos emplear la fórmula
$\bar{x} - z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}} <  \mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$
Para determinar estos intervalos. Sustituyendo los valores de arriba se tiene
$   3.4 - z_0 \cdot{\frac{0.8}{\sqrt[]{900}}} <   \mu < 3.4 + z_0 \cdot{\frac{0.8}{\sqrt[]{900}}}$
Para obtener el intervalo de confianza del 90% debemos encontrar el valor z de la tabla de áreas bajo lacurva normal que corresponde a 0.45 que corresponde a 0.45 que es $z_0$ =1.645. Ya mencionamos arriba que los valores de $z_0$ para el 95% y el 99% son 1.96 y 2.575. De esta manera es fácil ver que entonces los intervalos resultan ser



$ 3.356 < \mu < 3.44,  3.348 < \mu < 3.452  y 3.331 <  \mu < 3.469.$


La expresión $z_0\cdot{\frac{\sigma}{\sqrt[]{n}}}$ representa el eror máximo al estimar la media por $\bar{x}$ con grado de confianza $\alpha$ y puede ser usada para determinar el tamaño de la muestra cuando se sedea cierto grado de precisión.
Supongamos que un fabricante de llantas desea determinar la vida promedio de cierto tipo de llantas con un grado de certeza del 99% y con un error menor a 1000 km. Po estudios previos el fabricante sabe que la desviación estándar para este tipo de llantas es de 3000 km ¿Qué tán grande sebe ser la muestra?
Si E es el error máximo, entonces $E=z_0\cdot{\frac{\sigma}{\sqrt[]{n}}} =2.575\cdot{\frac{3000}{\sqrt[]{n}}}$ y como deseamos que E sea 1000, obtenemos la ecuación $1000=2.575\cdot{\frac{3000}{\sqrt[]{n}}}$, que al resolver da $\sqrt[]{n}=7.725$. Para obtener el valor de n elevamos al cuadrado para llegar a n =59.67, y como este número no es entero debemos redondear hacia arriba para tener n=60.


La estimación de intervalos de confianza para muestras pequeñas, n <30, es, muy semejante al caso de muestras grandes cuando la distribución de la población que estamos analizando tiene forma de campana. Sin embargo, es necesario reemplazar la distribución normal por otra distribución continua llamada distribución t. Esta distribución tiene también forma de campana pero con las colas un poco más levantadas. De hecho, su forma exacta depende  de un parámetro llamado grados de libertad, que es simplemente n-1 el tamaño de la muestra menos uno.
Si el tamaño de la muestra es pequeño (n < 30) el intervalo de confianza para $\mu$ de grado de confianza $ 1-\alpha$ es
$ \bar{x} - t_{\alpha/2}  \cdot{\frac{s}{\sqrt[]{n}}} <  \mu < \bar{x} +   t_{\alpha/2}  \cdot{\frac{s}{\sqrt[]{n}}}$
Donde el valor $t_{\alpha/2}$ viene dado por una tabla de la distribución t.
En esta tabla aparecen los valores de t que nos permiten calcular los valores de t correspondientes a los valores $t_{\alpha/2}$= $t_{0.25},t_{0.1},t_{0.05},t_{0.025},t_{0.01},t_{0.005}$ que nos permiten calcular los intervalos de confianza del 50%, 80%,90%, 95%, 98 y 99% respectivamente.
El siguiente ejemplo ilustra el uso de la distribución t en la determinación de intervalos de confianza para medias de muestras pequeñas.
Una empresa realizó un estudio del nivel de nicotina para una muestra de 20 cigarrillos producidos por otra empresa. La siguiente tabla muestra la cantidad de nicotina contenida en cada uno de los cigarrillos de la muestra.
La media de la muestra es $\bar{x}=\frac{22.5+...+...+25.2}{20}=24.9$ y su desviación estándar es
$ s=\sqrt[]{\frac{\sum( x-\bar{x}^2)}{n-1}} =\sqrt[]{\frac{(22.5-24.9)^2+...+(25.2-24.9)^2}{19}}=1.53$


Para determinar el intervalo de confianza de 95% buscamos en la tabla en la columna del 0.05/2 y el renglóncorrespondiente a 19= n-1, que son los grados de libertad. El valor de t es2.093. Por lo tanto el intervalo de confianza del 95% es
$ \bar{x} - t_{\alpha/2}  \cdot{\frac{s}{\sqrt[]{n}}} <  \mu  < \bar{x} +   t_{\alpha/2}  \cdot{\frac{s}{\sqrt[]{n}}}$
$ 24.9- 2.093  \cdot{\frac{153}{\sqrt[]{20}}}  <   \mu < 24.9 +   2.093  \cdot{\frac{153}{\sqrt[]{20}}}$
$24.9 - 0.72  <  \mu < 24.9 + 0.72 $
24.18  <  $\mu$  < 25.62 
Esto significa que con probabilidad 0.95 el nivel medio de nicotina de la marca competidora esta entre 24.18 y 25.62 o bien, que al estimar el nivel medio de nicotina como 24.9 mg sabemos que con un grado de confianza del 95% el error es menor a 0.72 mg.

domingo, 15 de julio de 2012

Distribuciones muestrales y el teorema del límite central


Supongamos que para un estudio nutricional necesitamos obtener los promedios de los pesos y estaturas de los niños de 7 años de una región en un estado de la Republica. Si en esta región viven 50 000 niños de 7 años resultaría muy costoso y lento visitar a cada uno de ellos para pesarlo y medirlo. En la práctica, este tipo de estudios lo hacemos por medio de muestras. Digamos  que realizamos una muestra de 400 niños y obtenemos la media de la muestra. ¿Qué tan confiable serían nuestros resultados? ¿Dependen de la muestra elegida?
Con el fin de familiarizarnos con la forma de estudiar estos problemas analizaremos un  caso muy simple. Supongamos que tenemos una población de N=5 niños  y que nuestras muestras son de tamaño N=2. Es claro que para un problema de este tamaño simplemente tomamos las alturas de los cinco niños, las sumamos, dividimos por cinco y se acabó. El objeto de este análisis es sólo el de entender algunos aspectos importantes del problema original a través de este ejemplo. La siguiente tabla muestra las alturas de los cinco niños:

La media de las alturas es
$ \mu=\frac{1.20+1.18+1.32+1.23+1.28}{5}=1.242$
Y su desviación estándar es
$ \sigma=\sqrt[]{\frac{(1.2-1.242)^2+(1.18-1.242)^2+...+(1.28-1.242)^2}{5}}  =0.05154$
Hay un total de $ \displaystyle\binom{5}{2}=\frac{5\cdot{4}}{2}=10$ muestras posibñes. Para cada una de estas muestras tenemos una media $\overline{x}$. Por ejemplo, para la muestra $ \left\{{1,2}\right\}$, su media es $\overline{x}$ = (1.2+1.18)/2 =1.19 y para la muestra $ \left\{{3,5}\right\}$ su media es $\overline{x}$= (1.32+1.28)/2 = 1.30, etc.
Si pensamos que la muestra que tomamos depende del azar, la media $\overline{x}$ asociada a cada muestra es entonces una variable aleatoria. Dos aspectos importantes de esta variable aleatoria son su media y su desviación estándar. La media de esta variable aleatoria que denotamos por $\mu_{\overline{x}}$ y llamamos media de la distribución muestral, es la media de las medias de cada muestra, y la desviación estándar, que denotamos $ \sigma_{\overline{x}}$ y llamamos error estándar de la media, es la desviación estándar de las medias de las muestras.

Para calcular la media de la distribución muestral y el error estándar de la media  (o desviación estándar de la distribución de medias) debemos aplicar los métodos vistos enpost anteriores. En particular para determinar el error estándar de la media emplearemos la expresión
$ \sigma=\sqrt[]{\frac{N(\sum x^2)-(\sum x)^2}{N^2}} $

En la siguiente tabla se aprecian estos cálculos.
Ahora el total de muestras es N=10, por lo que la media de la distribución  es
$\mu_{\overline{x}} =\frac{12.42}{10}=1.242$
Y el error estándar de la media es
 $\sigma=\sqrt[]{\frac{N(\sum x^2)-(\sum x)^2}{N^2}} = \sqrt[]{\frac{10(15.4356)-(12.42)^2}{100}}=0.03156.$
Por lo tanto, la media de la distribución muestral coincide con la media de la distribución de la población original, pero el error estándar de la media es menor que la desviación estándar de la población original.


Hay dos resultados muy importantes que describen la distribución de la variable aleatoria $\overline{x}$. El primero de ellos nos dice que, como en el ejemplo que desarrollamos de las alturas de los cinco niños, la media de la distribución muestral siempre coincide con la media de la población y que el error estándar de la media es siempre menor que la desviación estándar de la población. Más precisamente:
Si tomamos muestras de tamaño n de una población de tamaño N con media  $\mu$ y desviación estándar $\sigma$, entonces la distribución muestral $\overline{x}$ tiene media $\mu_\overline{x} =\mu$ y desviación estándar
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-N}{N-1}}}$

Esta fórmula nos permite estimar la variabilidad de las medias muestrales  (el error estándar de la media $\sigma_\overline{x}$) en relación a la variabilidad de la población (la desviación estándar $\sigma $ ). En el ejemplo de las alturas de los cinco niños vimos que su desviación estándar es $\sigma$ =0.05154. De acuerdo a la fórmula de arriba el error estándar de la media es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{0.05154}{\sqrt[]{2}}\cdot{\sqrt[]{\frac{5-2}{5-1}}}=\frac{0.05154}{\sqrt[]{2}}\cdot{\sqrt[]{\frac{3}{4}}}=0.03156$
Que coincide  con el valor que obtuvimos para la desviación estándar de la distribución de $\overline{x}$. Cuando N > 20 n el factor $\sqrt[]{\frac{N-n}{N-1}}$ de la fórmula de arriba es muy cercano a 1 puede ser omitido, esto es,
Si N> 20n, entonces $\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}$
Supongamos que tenemos una población de N=900 y una desviación estándar $\sigma$. ¿Cómo cambia el error estándar de la muestra si el tamaño de la muestra n disminuye de 100 a 50?
Debemos determinar primero qué expresión usar para calcular el error estándar de la media $\sigma_\overline{x}$. Como N=900 no es mayor que 20 n tanto para n=50 como para n=100, en ambos casos debemos emplear la fórmula completa. Para n=50 el error estándar de la media es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{ \sigma}{\sqrt[]{50}}\cdot{\sqrt[]{\frac{850}{899}}}=0.1375\sigma$
Y para n=100 es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{ \sigma}{\sqrt[]{100}}\cdot{\sqrt[]{\frac{800}{899}}}=0.0943\sigma$

La Razón entre estos dos errores estándar de la media es $\frac{0.1375\sigma}{0.0943\sigma}=1.46$ Esto significa que si el tamaño de la muestra disminuye de 100 a 50, entonces el error estándar de la media aumenta 1.46 veces.
El segundo resultado importante al que nos referimos antes es conocido como el teorema del límite central y nos permite aproximar en muchos casos la distribución muestral de las medias por medio de la distribución normal.
Teorema del límite central. Si n es grande la distribución muestral de las medias puede aproximarse por medio de una distribución normal.

Este resultado es verdaderamente importante en la estadística ya que permite el empleo de la distribución normal en una amplia variedad de problemas. Aun cuando no especifica que tan grande  debe ser el tamaño de la muestra n para poder aproximar la distribución muestral $\overline{x}$ por una normal, una buena regla es que basta que n sea mayor o igual a 30.
Veamos ahora un par de ejemplos que ilustren el uso de estos resultados.
a) Supongamos que la población de niños de siete años que deseamos estudiar es de N=50 000 y que por estudios de la Organización Mundial de la Salud sabemos que la desviación estándar de las alturas de los niños de esta edad es $\sigma$=10 cm. Para estudiar sus alturas tomamos una muestra aletoria de n=400 niños. Si la media de esta muestra fue de $\overline{x}$=122 cm ¿qué tan razonable es tomar 122 cm como la media de la población?
El valor $\mu$ de la media de la población es desconocido, pero sabemos por el teorema del límite central que la distribución muestral de las medias es una variable aleatoria normal con misma media $\mu$ y con desviación estándar $\sigma_\overline{x}$. Para calcular $\sigma_\overline{x}$ vemos primero que
N=50 000 > 8000= 20n,
Por lo cual
   $\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}=\frac{10}{\sqrt[]{400}}=0.5$.
Como la variable $\overline{x}$ es normal con media $\mu$ y desviación estándar 0.5, por medio de la tabla de áreas bajo la curva normal podremos determinar la probabilidad de que la variable aleatoria $\overline{x}$ se encuentre a cierta distancia de $\mu$. Por ejemplo, veamos cómo determinar la probabilidad de que el error en la estimación de la media sea menor a un centímetro. Esta probabilidad corresponde al área bajo la distribución muestral de las medias entre los valores de $\mu-1$ y $\mu+1$

Observemos que $\overline{x}$ se encuentra entre $\mu -1$ y $\mu + 1$ si
$\mu -1 < \overline{x} <\mu +1 $
Que al restar $\mu $ equivale a
$-1 < \overline{x} <1 $
Y al dividir por $ \sigma_\overline{x}=0.5$da
$-\frac{1}{0.5}<\frac{\overline{x}- \mu}{\sigma_\overline{x}}$$ < \frac{1}{0.5}$

Que es igual a
-2 < z < 2
En la tablade áreas bajo la curva normal vemos que el área entre z=0 y z=2 es 0.4772, de modo que por simetría el área entre -2 y 2 es 2 (0.4772)=0.9544. Como el valor de $\overline{x}$ =122 fue aleatorio, la probabilidad de que la media se encuentre a menos de 1 cm de 122 cm es de 0.9544.
b) Una región agrícola consta de 200 000 hectáreas donde se siembra trigo. Para estimar la producción media por hectárea se realiza una muestra de 900 hectáreas que tuvieron en promedio una productividad de $\overline{x}$  = 3.4 toneladas. La  Secretaría de agricultura estima que la desviación estándar de la productividad del trigo en la región es de $\sigma$= 0.8 toneladas. ¿Cuál es la probabilidad de que nuestra estimación de la producción media en la región tenga un error de a lo más 0.05 toneladas?
De nuevo el valor de $\mu$ de la producción media en la región es desconocido, pero sabemos que la distribución muestral de las medias es normal con media $\mu$ y desviación estándar $\sigma_\overline{x} $. Como N= 20000 >18000020n,
$ \sigma_\overline{x}=\frac{\sigma}{\sqrt[]{n}}=\frac{0.8}{\sqrt[]{900}}=0.0266. $
Deseamos calcular la probabilidad de que el valor $\overline{x}$=3.4 toneladas se encuentre a lo más 0.05 toneladas de la media $\mu$. Si procedemos como en el ejemplo anterior, tendremos que esta probabilidad corresponde al área bajo la curva normal estándar entre
$-\frac{0.05}{0.0266}=-1.88 y \frac{0.05}{0.0266}=1.88$
El área bajo la curva normal estándar entre -1.88 y 1.88 es dos veces el área entre 0 y 1.88. Al buscar en la tabla de áreas bajo la curva normal el valor de 1.88 obtenemos que esta área es 0.4699, por lo que la probabilidad de que la productividad media de la región se encuentre entre 3.35 y 3.45 es de 2(0.4699)=0.94.

domingo, 8 de julio de 2012

Muestreo aleatorio


En los próximos posts veremos cómo los conceptos que hemos estudiado de estadística descriptiva y probabilidad se conjuntan para desarrollar la estadística inferencial. El objetivo de la estadística inferencial es el de obtener información confiable de una población analizando sólo una muestra relativamente pequeña. Si deseamos, por ejemplo estudiar las preferencias de los aficionados al fútbol en México no tomaríamos una muestra de aficionados de la porra del América para preguntarles ¿a qué equipo le va usted? En los métodos que describiremos aquí supondremos que las muestras que analizaremos son aleatorias. Supongamos que la población total consta de N individuos y que deseamos realizar una investigación en una muestra de n personas. Como cada muestra se conforma con una elección que hagamos de n individuos de entre el total N se  tienen por lo tanto $\displaystyle\binom{N}{n}$  maneras diferentes en que podemos escoger la muestra. Una muestra es aleatoria si cada una de las $\displaystyle\binom{N}{n}$ muestras posibles tiene la misma probabilidad de ser escogida.
Por ejemplo, si tenemos una población con 20 individuos y deseamos hacer una muestra con 6 de estos individuos, hay en total $\displaystyle\binom{20}{6}$ =38760 muestras posibles. Si cada una de estas muestras la elegimos con probabilidad $\frac{1}{38760}$ entonces la muestra sería aleatoria. ¿Cómo obtener una muestra efectivamente aleatoria? Una alternativa consistiría en asignar un número entre 1 y 38760 a cada muestra e introducir 38760 boletos en una tómbola, girar la tómbola y escoger un boleto. Este esquema de muestreo es totalmente impráctico. Otra forma más sencilla, que resulta ser equivalente, consiste en introducir  20 boletos  en una tómbolo, girar y escoger 6 de estos 20 boletos. Aun este esquema sencillo resulta impráctico si deseáramos, por ejemplo, estudiar el ingreso mensual de las familias en México ya que el total de familias es del  orden de varios millones. Una alternativa práctica para elegir una muestra  aleatoria es el emplear tablas de números aleatorios como la siguiente:
Esta tabla contiene números entre  cero y uno distribuidos uniformemente. Para obtener una muestra aleatoria escogemos un número cualquiera de estos, digamos que elegimos el séptimo número de la quinta columna (.246194) y a partir de él tomamos tantos números como tenga la muestra. Para elegir una muestra  de 6 de 20 individuos nos fijamos en los siguientes cinco números, los multiplicamos por 20, el tamaño de la población y redondeamos a números enteros. En la siguiente tabla estos cálculos.
Esto significa que la muestra que obtuvimos consiste de los individuos 5,7,14,17,12 y 20. En caso de que después de redondear obtengamos un número repetido simplemente lo ignoramos y tomamos un número aleatorio más de la tabla. Existen tablas muy extensas de números aleatorios que pueden consultarse en caso necesario, o bien, es posible generar secuencias de números aleatorios en hojas de cálculo.



sábado, 7 de julio de 2012

La distribución normal

Consideremos de nuevo la distribución  del número de automóviles recuperados de losocho robados. La siguiente figura muestra su histograma. Si la base de cada una de las barras es igual a uno, entonces la  altura de la barra es igual al área de la barra. Por lo tanto, la probabilidad de que la variable tome cierto valor es igual al área de la barra correspondiente y, por ser una distribución de probabilidad, el área de  todas las barras es igual a uno. Esto significa que, por ejemplo la probabilidad de recuperar entre 3 y 5 automóviles  es igual al rea de las barras que corresponden a los valores 3,4 y 6, que es 0.124 +0.232+0.277= 0.633. Utilizaremos esta propiedad para definir las distribuciones de probabilidad de variables aleatorias continuas.

Los espacios muéstrales continuos y las variables aleatorias continuas surgen cuando consideramos cantidades que son medidas en la escala continua como la altura y pero de personas o el tiempo de vida del virus del SIDA bajo ciertas condiciones de laboratorio. En el caso continuo reemplazamos lo s histogramas por curvas continuas. En lugar de histogramas, las distribuciones de probabilidad continúas son descritas por medio de lineas  como las de la siguiente figura.


La característica principal de estas curvas es el hecho de que el área bajo la curva de a a b es la probabilidad de que la variable aleatoria tome algún valor entre a y b.Por lo tanto, el área bajo toda la curva debe ser igual a uno.


En el primer ejemplo de la figura de arriba la distribución  se representa por medio de una recta horizontal. Si la variable aleatoria toma valores entre c y d, entones la altura de la recta debe ser $ \frac{1}{d-c}$ para que el área bajo la recta sea precisamente uno. Esta distribución se conoce como la distribución uniforme y tiene la propiedad de que la probabilidad de que la variable aleatoria tome un valor entre a y b es $ \frac{b-a}{d-c}$ y sólo depende de la distancia de a a b. Por lo tanto, las probabilidades de que la variable aleatoria tome valores en dos intervalos de igual longitud son iguales. Esto significa que todos los valores de la variable aleatoria son igualmente probables. Si, por ejemplo, se tiene una variable aleatoria uniforme que toma valores entre c=-1 y d=1, entonces d-c = 1-(-1)= 2 y la probabilidad de que la variable tome valores digamos entre 0.3 y 0.7 es $\frac{0.7-0.3}{2}=0.2$


El segundo ejemplo es una distribución bimodal donde podemos apreciar que el área bajo la curva cerca de las jorobas es mayor que el área en el centro o cerca de los extremos. Por lo tanto, la variable aleatoria toma con mayor probabilidad los valores bajo las jorobas que en el centro  o en los extremos.
Las diversas curvas en forma de campana son ejemplos de distribuciones normales. La distribución normal es uno de los conceptos más importantes de la estadística. Esto se debe tanto a su importancia teórica como a que muchas distribuciones de datos reales son prácticamente iguales a una normal. Aun cuando no puede apreciarse en las figuras de arriba, las curvas normales se extienden indefinidamente en ambos extremos, cada vez pegándose más al eje horizontal sin llegarlo a tocar. Afortunadamente  en la práctica no es necesario alargar estas “colas” muy lejos , pues se encuentran tan cerca del eje horizontal que el área bajo ellas es despreciable cuando nos alejamos más de cuatro o cinco desviaciones estándar de la media.
Como puede verse de la figuras de arriba, se tiene toda una familia de distribuciones normales, cada una de ellas determinada por su media $ \mu$ y su desviación estándar $ \sigma$. La media corresponde al valor en el eje horizontal donde se encuentra la cima de la curva y la desviación estándar nos determina que tan abierta o picuda es la curva. Entre mayor es la deviación estándar la curva se levanta más suavemente. De la forma de campana podemos apreciar que los valores  más probables de una variable aleatoria normal son los cercanos a  la media, ya que en esa zona las áreas bajo la curva son más grandes.


En la práctica se pueden calcular las áreas bajo la curva normal, es decir las probabilidades de que la variable tome un valor entre ciertos números a y b, por medio de tablas especiales, como la tabla mostrada más abajo donde aparecen las áreas entre los valores 0 y z con z>0, para la curva normal estándar, es decir, la curva normal con media $\mu$=0 y desviación estándar  $\sigma$=1.

Z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.0000
0.0040
0.0080
0.0120
0.0160
0.0199
0.0239
0.0279
0.0319
0.0359
0.1
0.0398
0.0438
0.0478
0.0517
0.0557
0.0596
0.0636
0.0675
0.0714
0.0753
0.2
0.0793
0.0832
0.0871
0.0910
0.0948
0.0987
0.1026
0.1064
0.1103
0.1141
0.3
0.1179
0.1217
0.1255
0.1293
0.1331
0.1368
0.1406
0.1443
0.1480
0.1517
0.4
0.1554
0.1591
0.1628
0.1664
0.1700
0.1736
0.1772
0.1808
0.1844
0.1879
0.5
0.1915
0.1950
0.1985
0.2019
0.2054
0.2088
0.2123
0.2157
0.2190
0.2224
0.6
0.2257
0.2291
0.2324
0.2357
0.2389
0.2422
0.2454
0.2486
0.2517
0.2549
0.7
0.2580
0.2611
0.2642
0.2673
0.2704
0.2734
0.2764
0.2794
0.2823
0.2852
0.8
0.2881
0.2910
0.2939
0.2967
0.2995
0.3023
0.3051
0.3078
0.3106
0.3133
0.9
0.3159
0.3186
0.3212
0.3238
0.3264
0.3289
0.3315
0.3340
0.3365
0.3389
1.0
0.3413
0.3438
0.3461
0.3485
0.3508
0.3531
0.3554
0.3577
0.3599
0.3621
1.1
0.3643
0.3665
0.3686
0.3708
0.3729
0.3749
0.3770
0.3790
0.3810
0.3830
1.2
0.3849
0.3869
0.3888
0.3907
0.3925
0.3944
0.3962
0.3980
0.3997
0.4015
1.3
0.4032
0.4049
0.4066
0.4082
0.4099
0.4115
0.4131
0.4147
0.4162
0.4177
1.4
0.4192
0.4207
0.4222
0.4236
0.4251
0.4265
0.4279
0.4292
0.4306
0.4319
1.5
0.4332
0.4345
0.4357
0.4370
0.4382
0.4394
0.4406
0.4418
0.4429
0.4441
1.6
0.4452
0.4463
0.4474
0.4484
0.4495
0.4505
0.4515
0.4525
0.4535
0.4545
1.7
0.4554
0.4564
0.4573
0.4582
0.4591
0.4599
0.4608
0.4616
0.4625
0.4633
1.8
0.4641
0.4649
0.4656
0.4664
0.4671
0.4678
0.4686
0.4693
0.4699
0.4706
1.9
0.4713
0.4719
0.4726
0.4732
0.4738
0.4744
0.4750
0.4756
0.4761
0.4767
2.0
0.4772
0.4778
0.4783
0.4788
0.4793
0.4798
0.4803
0.4808
0.4812
0.4817
2.1
0.4821
0.4826
0.4830
0.4834
0.4838
0.4842
0.4846
0.4850
0.4854
0.4857
2.2
0.4861
0.4864
0.4868
0.4871
0.4875
0.4878
0.4881
0.4884
0.4887
0.4890
2.3
0.4893
0.4896
0.4898
0.4901
0.4904
0.4906
0.4909
0.4911
0.4913
0.4916
2.4
0.4918
0.4920
0.4922
0.4925
0.4927
0.4929
0.4931
0.4932
0.4934
0.4936
2.5
0.4938
0.4940
0.4941
0.4943
0.4945
0.4946
0.4948
0.4949
0.4951
0.4952
2.6
0.4953
0.4955
0.4956
0.4957
0.4959
0.4960
0.4961
0.4962
0.4963
0.4964
2.7
0.4965
0.4966
0.4967
0.4968
0.4969
0.4970
0.4971
0.4972
0.4973
0.4974
2.8
0.4974
0.4975
0.4976
0.4977
0.4977
0.4978
0.4979
0.4979
0.4980
0.4981
2.9
0.4981
0.4982
0.4982
0.4983
0.4984
0.4984
0.4985
0.4985
0.4986
0.4986
3.0
0.4987
0.4987
0.4987
0.4988
0.4988
0.4989
0.4989
0.4989
0.4990
0.4990


Digamos que deseamos encontrar el área bajo la curva normal estándar entre 0 y 1.45. Entonces buscamos en la tabla en la columna de la izquierda el valor 1.4. El renglón correspondiente es

1.4
0.4192
0.4207
0.4222
0.4236
0.4251
0.4265
0.4279
0.4292
0.4306
0.4319
El primer valor corresponde a 1.4, el segundo a 1.41, etc. Por lo tanto, el área entre 0 y 1.45 corresponde al valor 0.4265 que está en la columna del 0.05.
Utilizando la simetría de la curva alrededor de la media podemos calcular áreas entre cualesquiera dos valores a y b. Veamos algunos ejemplos.
a) Encuentra el área bajo la curva normal estándar a la izquierda de 0.83
Como el área bajo toda la curva es 1, el área que está a la izquierda del 0 es 0.5; el área que está a la izquierda de 0.83 es igual a la suma del área  a la izquierda del 0 más el área entre 0 y 0.83. En la tabla encontramos que este valor es igual a 0.2967. El área que buscamos es entonces 0.5+0.2967=0.7967.
b) Encuentra el área bajo la curva normal estándar a la derecha de 1.07.
El área a la derecha del 0 es 0.5 y la podemos descomponer como la suma del área entre 0 y 1.07 y el área a la derecha de 1.07. En la tabla obtenemos que el área entre 0 y 1.97 es 0.3577. Por lo tanto el área a la derecha de 1.07 es lo que le falta a 0.3577 para llegar a 0.5, es decir 0.5-0.3577=0.1423.
c) Encuentra el área bajo la curva normal estándar entre 0.24 y 1.18.
Si al área entre 0 y 1.18 le restamos el área entre 0 y 0.24 obtenemos el área que buscamos. Por lo tanto, el área entre 0.24 y 1.18 es 0.381-0.0948=0.29.
d) Encuentra el área bajo la curva normal estándar entre -1.34 y 0.
Por la simetría de la curva alrededor de la media, el área entre -1.34 y 0 es igual al área entre 0 y 1.34, es decir, 0.4099.
Las siguientes figuras ilustran las áreas de estos ejemplos.



e) Encuentra el área bajo la curva normal estándar entre -1.48 y 0.12
Esta área es la suma de -1.48 a 0 y el área entre 0 y 0.12, que es 0.4306 + 0.0478=0.4784.
f) Encuentra el área bajo la curva normal estándar entre -1.7 y – 0.93.
Debemos observar primero que el número -1.7 está a la izquierda del 0.93. El área que deseamos calcular es entonces el área de -1.7 a 0 menos el área de -0.93 a 0, esto es , 0.4554-0.
3238=0.1316.
g) Encuentra el área bajo la curva normal estándar a la izquierda de -1.55.
El área a la izquierda de -1.55 es igual al área a la derecha de 1.55 que obtenemos al restarle a 0.5 el área entre 0 y 1.55, 0.5-0.4394=0.0606.
h) Encuentra el área bajo la curva normal a la derecha de -0.47.
Esta área es la suma del área -0.47 a 0 más el área a la derecha del 0, que por la tabla de arriba vemos que es 0.1808 + 0.500 = 0.6808.
Las siguientes figuras muestran las áreas de estos últimos cuatro ejemplos.


Las áreas que hemos calculado corresponden a probabilidades de una variable aleatoria normal con media $\mu$=0 y desviación estándar  $\sigma$ =1. Así, de  los incisos b), e) y g) sabemos que la probabilidad de que esta variable tome valores mayores a 1.07 es de 0.1423 la probabilidad de que tome valores entre -1.48 y 0.12 es de 0.4784, y que la probabilidad de que tome valores menores a -1.55 es de 0.0606. En principio sería necesario contar con una tabla similar a la tabla de arriba  para cada valor posible de $\mu$ y de $\sigma$. Afortunadamente esto resulta innecesario pues las probabilidades de cualquier variable normal se pueden  obtener de la tabla de áreas de la curva normal estándar  haciendo un cambio de escala que convierte unidades de medida en unidades estándar por medio de la fórmula.
$z=\frac{x-\mu}{\sigma}$
Supongamos que la  media  $\mu$ es 8 y la desviación estándar $\sigma $ es 2. ¿Cuáles son las probabilidades de que la variable tome valores entre 9 y 11  y entre 7.50 y 10.5?
El valor de z correspondiente a x=9 es de z =$\frac{9-8}{2} =0.5$ y el valor de z correspondiente a x=11 es de z ==$\frac{11-8}{2} =1.5$. En la tabla de arriba esos valores corresponden a 0.1915 y  0.4332, de modo que la probabilidad de que la variable tome valores entre  9 y 11 es de 0.2417. Para el segundo caso calculamos los valores de z que corresponden a los valores de x=7.5 y x=10.5, obtenemos $z=\frac{7.5-8}{2}=\frac{-0.5}{2}=-0.25$ y z = $\frac{10.5-8}{2}=1.25$. La probabilidad de que la variable tome valores entre 7.5 y 10.5 corresponde al área bajo la curva normal estándar entre -0.25 y 1.25 .Por medio de la tabla de áreas de la curva normal esta área es 0.0987+0.3944=0.4931.
Resulta interesante averiguar cuáles son las probabilidades de que una variable aleatoria normal difiera de la media en una , dos o tres desviaciones estándar. Analicemos primero la probabilidad de que la probabilidad difiera a lo más en una desviación estándar de la media, esto es, la probabilidad de que la variable tome valores entre x=$\mu$-s  y x=$\mu$ + $\sigma$. Los valores de z corresponden  a z= $\frac{(\mu-\sigma)-\mu}{\sigma}=\frac{-\sigma}{\sigma}= -1$ y $z=\frac{(\mu+\sigma)-\mu}{\sigma} =\frac{\sigma}{\sigma}=1$.

En la tabla de arriba vemos  que esta probabilidad  es 0.3413 +0.3413=0.6826. Para el caso de la variable difiera en a lo más dos desviaciones estándar de la media los valores de x son ahora $\mu$- 2s y x= $\mu$ + 2$\sigma$. Sustituyendo como arriba veremos que z debe de estar entre   $\frac{(\mu-2\sigma)-\mu}{\sigma}=\frac{-2\sigma}{\sigma}=-2$ y que $  \frac{(\mu+2\sigma)-\mu}{\sigma}=\frac{2\sigma}{\sigma}=2$ y la probabilidad es 0.4772 +0.4772 = 0.9544. Finalmente, para el caso de tres desviaciones estándar es claro que los valores de z que se tienen son -3 y 3, por lo que la probabilidad de que la variable difiera a lo más tres desviaciones estándar es de  2 x 0.4987=0.9974. En resumen, aproximadamente el 68%, el 95% y el  99.7% de las veces una variable tomara valores que difieren a lo más de la media en una, dos o tres desviaciones estándar. Recordemos el teorema de Chevishev que asegura que para cualquier distribución de frecuencia al menos la proporción $1-\frac{1}{k^2}$ de los datos se encuentra a lo más de k desviaciones estándar de la media. En particular, si k=2, tenemos que $1-\frac{1}{2^2}=\frac{3}{4}$, es decir , el 75% de los datos se encuentran a dos desviaciones estándar de la media. En el caso particular de las distribuciones de frecuencia de forma de campana este porcentaje aumenta a 95%. De la misma forma, para distribuciones generales el teorema de Chevishev asegura que el 88.9% de los datos difieren  a lo más en tres desviaciones estándar de la media, pero para distribuciones en forma de campana este porcentaje aumenta hasta el 99.7% del total de los datos,
Hay problemas donde necesitamos encontrar el valor de z dada cierta área bajo la curva normal estándar. Denotaremos por $z_{t}$ al valor de z tal que el área  bajo la curva normal estándar a su derecha es igual a t. Veamos cómo determinar $z_{0.35}$. En este caso deseamos encontrar el valor de z tal que el área a la derecha de z es de 0.35.



Como el área a la derecha de 0  es 0.5, el área bajo la curva normal de 0 al valor de z que buscamos debe ser 0.5-0.35=0.15. Para encontrar el valor de s usamos la tabla de areas de la curva normal, pero ahora buscamos primero el área más cercana a 0.15 , que es de 0.1517.

Esta área corresponde a z=0.39. Por lo tanto $z_{35}$=0.39.

Consideremos ahora dos ejemplos que involucran variables variables  aleatorias que tienen distribuciones normales.

1.El tiempo que les toma a un grupo de obreros que ha recibido entrenamiento especial ensamblar una serie de microchips es una variable aleatoria que tiene aproximadamente una distribución normal con media $\mu$=14.5 minutos y desviación estándar $\sigma$=2.5 minutos. ¿Cuál es la probabilidad de que a uno de estos obreros le tome entre 11 y 16 minutos? ¿Cuál es la probabilidad de que a uno de estos obreros le tome más de 18 minutos?

Para calcular la probabilidad de que a uno de estos obreros le tome entre 11 y 16 minutos debemos calcular el área bajo la curva normal estándar entre

  $z=\frac{11-14.5}{2.5}=-1.4$    y    $z=\frac{16-14.5}{2.5}=0.6$


Que en la tabla de arriba vemos que es de 0.4192 + 0.2257=0.6449. La probabilida de que a uno de los obreros le tome más de 18 minutos es el área bajo la curva normal a la derecha de $z=\frac{18-14.5}{2.5}=1.4$ que es 0.5-0.4192=0.0808.


2. Los aguacates que se producen en una huerta tienen una media de 234 gramos y una desviación estándar de 33 gramos. Si el peso de los aguacates tiene una distribución normal, ¿cuál es el peso del 90% de los aguacates más grandes? El 90% de los aguacates más pesados  consiste de los aguacates que se encuentran a la derecha de la media (50% )  y al 40% de los aguacates que se encuentran a la izquierda de la media.  Debemos determinar el valor de $z_{0.4}$ en la tabla de aéreas bajo la curva normal . El valor más cercano a 0.4 es 0.3997 que corresponde a z =1.28. Esto significa que el peso de los aguacates  no debe estar más a la izquierda de 1.28 desviciones estándar de la media esto es , 1.28 x 33 =42.24 gramos. El 90% de los aguacates más grandes debe pesar cuando menos 234-42.24=191.76 gramos. Podemos también obtener este resultado  despejando el valor de x de la ecuación
$ z=-1.28=\frac{x-234}{33}$
Pues entonces (-1.28)(33)=x-234,
Por lo que x=234-(1.28)(33)
=191.76.


La distribución normal es también muy útil por tener la característica de aproximar a la distribución binomial cuando el número de ensayos n es relativamente grande y la probabilidad p de éxito en cada ensayo es cercana a  0.5. Las distribuciones binomiales con estas características son en forma de campana.
Puesto que la media de la distribución binomial es np y la desviación estándar $\sqrt[]{np(1-p)}$, la distribución  normal que mejor aproxima a la binomial debe tener esta media y desviación estándar. Esta aproximación es buena si tanto np como n(1-p) son ambos mayores que 5. Estas condiciones se cumplen cuando n es suficientemente grande.
Veamos qué tan buena resulta esta aproximación en algunos casos.
a) La probabilidad de obtener cuatro cincos o seises al tirar quince veces un dado es
$f(4)=\displaystyle\binom{15}{4}(\frac{1}{3})^4 (\frac{2}{3})^{11}$=(1365)(0.01234)(0.01156)=0.1948
Estamos en el límite para aproximar esta distribución binomial por la distribución normal ya que np=5 y n(1-p)=10. La media de la distribución binomial es $\mu$=np =5 y su desviación estándar es $\sigma= \sqrt[]{(np(1-p))}=\sqrt[]{10/3}=1.8257$. Para aproximar la distribución binomial que es discreta por la normal que es continua  calculamos la probabilidad de que la normal tome valores cercanos a 4  es decir la probabilidad de que x tome valores entre 3.5 y 4.5. En unidades estándar estos valores son
$z=\frac{3.5-5}{1.8257}=0.8216$     y    $z=\frac{4.5-5}{1.8257}=-0.2739$ 
De la tabla de áreas bajo la curva normal  tenemos que la probabilidad que buscamos es 0.2939-0.1064=0.1875.
b) Se tira una moneda veinte veces. La probabilidad de obtener 12 águilas es
$f(12)=\displaystyle\binom{20}{12}(\frac{1}{2})^{12} (\frac{1}{2})^{8}$=(125970)(0.000244)(0.003906)=0.1201
Ahora np =n(1-p)=20 x 0.5 = 10, que es mayor que 5. La media de la distribución binomial es np=10 y la desviación estándar es $\sqrt[]{np(1-p)}=\sqrt[]{5}$=2.236. Debemos buscar la probabilidad de que la variable normal x tome valores entre 11.5 y 12.5, que en medidas estándar son
$z=\frac{11.5-10}{2.236}=0.6708$     y    $z=\frac{12.5-10}{2.236}=1.118$ 
Por medio de la tabla de áreas bajo la curva normal  obtenemos que esta posibilidad es 0.3686-0.2486=0.12.
La aproximación de la binomial por medio de una normal en este par de ejemplos no simplifica los cálculos numéricos, pero en situaciones donde el cálculo de probabilidades binomiales es extremadamente laborioso la distribución normal resulta sumamente útil.
Un grupo de 100 enfermos de SIDA se somete a un nuevo tratamiento donde cada uno de los pacientes sobrevive más de cinco años al tratamiento con probabilidad de 0.4 ¿Cuál es la probabilidad de que al menos 50 de los 100 pacientes sobrevivan más de cinco años de tratamiento?
Si intentáramos calcular esta probabilidad a partir de las fórmulas de la distribución binomial deberíamos calcular primero las probabilidades de que sobrevivan más cinco años 50, 51,52,…100 pacientes y después sumar estas 51 probabilidades. Además, el cálculo de cada una de estas probabilidades es muy complejo pues involucra el producto de  números extremadamente grandes (los coeficientes binomiales) con números extremadamente pequeños (las potencias de p y 1-p). Sin embargo la aproximación con la normal es muy sencilla. Debemos primero verificar que np=100 x 0.4 =40 y n(1-p)=100 x 0.6 son ambos mayores que 5. La media es np =40 y la desviación estándar  es $\sqrt[]{np(1-p)}=\sqrt[]{24}$=4.8989. La probabilidad de que $z=\frac{49.5-40}{4.8989}$=1.939 esta variable normal tome valores mayores a 49.5 corresponde al área a la derecha de 1.94. En la tabla de áreas bajo la curva normal vemos que el área bajo la normal estándar de 0 a 1.94  es de 0.4738, por lo que el área que va a la derecha de 1.94 es 0.5-0.4738=0.0262. El valor real de esta probabilidad, obtenido por medio de una hoja de cálculo,  es de 0.0271, por lo que el error en la aproximación es del orden 0.0009.