Apuntes matemáticos: Intervalos de confianza para medias

EL objetivo de la estadística inferencial es el hacer generalizaciones basadas en muestras. Una de las aplicaciones más frecuentes es la estimación de medias. Supongamos que tenemos una muestra de 30 lecturas durante cierto periodo invernal del nivel de ozono en una zona de la ciudad de México. En la tabla tenemos

La media de esta muestra es

$\overline{x}$ =213.5 imecas. Si ésta es la única información que poseemos, podemos emplear este valor como una estimación de la media del nivel de ozono en la zona durante la época invernal. Una estimación así es llamada una estimación puntual pues consiste de un único número o punto de la recta real. A pesar de que este tipo de estimación es muy natural, no brinda información sobre el tamaño del error. En un post anterior observamoscomo la desviación estándar de la población y el tamaño de la muestradeterminan la variabilidad de la distribución muestral de las medias, ya queentre menor sea el error estándar de lamedia mejor será nuestra estimación puntual. Una forma alternativa que brinda más información consiste en estimar la media por medio de un intervalo. Recordemos que un intervalo de números reales consiste en todos aquellos números reales que se encuentran entre dos valores o límites del intervalo. Por ejemplo, los números que se encuentran entre 5.45 y 8.22 forman el intervalo

$\left\{{t|5.45 < t < 8.22}\right\}$ . El teorema del límite central nos permite entonces asociar a un intervalo alrededor de nuestro valor de

$\bar{x}$ =213.5 una probabilidad o grado de certidumbre de que la media que estimamos se encuentre efectivamente entre estos límites. Una estimación por un intervalo consiste entonces de un intervalo y de una probabilidad de que la media se encuentre en este intervalo.

Una dificultad inmediata para realizar estimaciones por intervalo es que la probabilidad asociada al intervalo depende de la variabilidad de la distribución muestral de las medias, es decir de la desviación estándar, y ésta a su vez depende del tamaño de la muestra y de la desviación estándar de la población. Cuando no se tiene mayor información acerca de la desviación estándar de la población $\sigma$ , tomamos la desviación estándar de la muestra s en lugar de $\sigma$ . En el caso del ozono, como se trata de una muestra, la desviación estándar está dada por

$s=\sqrt[]{\frac{\sum(x-\bar{x})^2}{n-1}}=\sqrt[]{\frac{(178-213.5)^2+L+(193-213.5)^2}{29}}=24.87$

También podríamos haber utilizado la fórmula

$s=\sqrt[]{\frac{n \left |{\sum x^2}\right |-(\sum x)^2}{n(n-1)}}$

Para calcular este valor. Debido a que el número total de posibles lecturas N es muy grande, podemos entonces tomar como error estándar de la media a

$\sigma_\bar{x}$ =

$\frac{\sigma}{\sqrt[]{n}}=\frac{24.87}{\sqrt[]{30}}=4.54.$

Supongamos ahora que deseamos establecer los límites del intervalo con centro en 213.5 para el cual la probabilidad de que la media se encuentre ahí es de 0.8. Si buscamos en la tabla de áreas bajo la curva normal el valor de z que corresponde a 0.8/2 = 0.4 obtenemos que z=1.28. Por lo tanto, el área bajo la curva normal estándar entre -1.28 y 1.28 es 0.8 y como esto es en unidades estándar equivale a

$-1.28 < \frac{213.5-\mu}{4.54} < 1.28.$

Si multiplicamos esta desigualdad por 4.54 se obtiene

-5.81 < 213.5-

$\mu$ < 5.81

Que al restar 213.5 equivale a

-219.3 < -

$\mu$ < -207.7.

Finalmente, recordando que al multiplicar una desigualdad por -1 ésta se invierte, se tiene

207.7 <

$\mu$ < 219.3

Este es el intervalo buscado e indica que la media

$\mu$ se encuentra entre 207.7 y 219.3 con probabilidad 0.8. A un intervalo como este se le conoce como un intervalo de confianza, a sus extremos como límites de confianza y a la probabilidad asociada como grado de confianza. Con el objeto de no repetir este desarrollo cada vez que deseemos determinar un intervalo de confianza es fácil ver que

Si la, población es grande en relación al tamaño de la muestra (N > 20n) y el tamaño de la muestra es mayor o igual que 30 el intervalo grande confianza para $\mu$ de grado de confianza $\alpha$ es

$\bar{x} - z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}} < \mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$

Donde el área bajo la curva normal estándar entre 0 y $z_0$ es $\alpha$ /2 , esto es, con un grado de confianza $\alpha$ el error al estimar la media por $\bar{x}$ es menor a

$z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$

Cuando la desviación estándar de la población

$\sigma$ es desconocida y n es grande (

$n\geq30$ ) podemos sustituir

$\sigma$ por la desviación estándar de la muestra s . Los grados de confianza más empleados son 0.95 y 0.99 y sus correspondientes

$z_0$ son 1.96 y 2.575. A estos intervalos también se les conoce como intervalos de confianza del 95% y 99%.

Para encontrar estos intervalos de confianza en el caso del nivel de contaminación de ozono en la ciudad de México tenemos que

$\bar{x} - z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}} < \mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$

$213.5 - 1.96 \cdot{\frac{24.87}{\sqrt[]{30}}} < \mu < 213.5 + 1.96\cdot{\frac{24.87}{\sqrt[]{30}}}$

$213.5-8.9 < \mu < 213.5 + 8.9$

Por lo que el intervalo de confianza del 95% es 204.6 <

$\mu$ < 222.4. Por lo tanto, sabemos que con probabilidad 0.95 la media se encuentra entre 204.6 y 222.4, o bien, que con un grado de confianza del 95 % el error al estimar la media como 213.5 es menor a 8.9. Si deseamos aumentar el grado de certeza al 99% entonces el intervalo será

$\bar{x} -z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}=213.5-2.575\cdot{\frac{24.87}{\sqrt[]{30}}} < \mu < 213.5 +2.575 \cdot{\frac{24.87}{\sqrt[]{30}}}=\bar{x}+ z_o\cdot{\frac{\sigma}{\sqrt[]{n}}}$

Que es 201.7 <

$\mu$ < 225.2. Observemos que entre mayor sea la certidumbre (grado de confianza) mayor es también el intervalo.

Consideremos de nuevo el ejemplodel post anterior de la región agrícola de 200000 hectareas sonde se siembratrigo. Se realizó una muestra de 900 hectareas con una productividad media de

$\bar{x}$ =3.4 toneladas y donde la desviación estándar de la productividad de trigo en la región es de

$\sigma$ = 0.8 toneladas. Obtengamos ahora los intervalos de confianza de 90%, 95% y 99%.

Como el número total de hectáreas es muy grande podemos emplear la fórmula

$\bar{x} - z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}} < \mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$

Para determinar estos intervalos. Sustituyendo los valores de arriba se tiene

$3.4 - z_0 \cdot{\frac{0.8}{\sqrt[]{900}}} < \mu < 3.4 + z_0 \cdot{\frac{0.8}{\sqrt[]{900}}}$

Para obtener el intervalo de confianza del 90% debemos encontrar el valor z de la tabla de áreas bajo lacurva normal que corresponde a 0.45 que corresponde a 0.45 que es

$z_0$ =1.645. Ya mencionamos arriba que los valores de

$z_0$ para el 95% y el 99% son 1.96 y 2.575. De esta manera es fácil ver que entonces los intervalos resultan ser

$3.356 < \mu < 3.44, 3.348 < \mu < 3.452 y 3.331 < \mu < 3.469.$

La expresión

$z_0\cdot{\frac{\sigma}{\sqrt[]{n}}}$ representa el eror máximo al estimar la media por

$\bar{x}$ con grado de confianza

$\alpha$ y puede ser usada para determinar el tamaño de la muestra cuando se sedea cierto grado de precisión.

Supongamos que un fabricante de llantas desea determinar la vida promedio de cierto tipo de llantas con un grado de certeza del 99% y con un error menor a 1000 km. Po estudios previos el fabricante sabe que la desviación estándar para este tipo de llantas es de 3000 km ¿Qué tán grande sebe ser la muestra?

Si E es el error máximo, entonces

$E=z_0\cdot{\frac{\sigma}{\sqrt[]{n}}} =2.575\cdot{\frac{3000}{\sqrt[]{n}}}$ y como deseamos que E sea 1000, obtenemos la ecuación

$1000=2.575\cdot{\frac{3000}{\sqrt[]{n}}}$ , que al resolver da

$\sqrt[]{n}=7.725$ . Para obtener el valor de n elevamos al cuadrado para llegar a n =59.67, y como este número no es entero debemos redondear hacia arriba para tener n=60.

La estimación de intervalos de confianza para muestras pequeñas, n <30, es, muy semejante al caso de muestras grandes cuando la distribución de la población que estamos analizando tiene forma de campana. Sin embargo, es necesario reemplazar la distribución normal por otra distribución continua llamada distribución t. Esta distribución tiene también forma de campana pero con las colas un poco más levantadas. De hecho, su forma exacta depende de un parámetro llamado grados de libertad, que es simplemente n-1 el tamaño de la muestra menos uno.

Si el tamaño de la muestra es pequeño (n < 30) el intervalo de confianza para

$\mu$ de grado de confianza

$1-\alpha$ es

$\bar{x} - t_{\alpha/2} \cdot{\frac{s}{\sqrt[]{n}}} < \mu < \bar{x} + t_{\alpha/2} \cdot{\frac{s}{\sqrt[]{n}}}$

Donde el valor

$t_{\alpha/2}$ viene dado por una tabla de la distribución t.

En esta tabla aparecen los valores de t que nos permiten calcular los valores de t correspondientes a los valores

$t_{\alpha/2}$ =

$t_{0.25},t_{0.1},t_{0.05},t_{0.025},t_{0.01},t_{0.005}$ que nos permiten calcular los intervalos de confianza del 50%, 80%,90%, 95%, 98 y 99% respectivamente.

El siguiente ejemplo ilustra el uso de la distribución t en la determinación de intervalos de confianza para medias de muestras pequeñas.

Una empresa realizó un estudio del nivel de nicotina para una muestra de 20 cigarrillos producidos por otra empresa. La siguiente tabla muestra la cantidad de nicotina contenida en cada uno de los cigarrillos de la muestra.

La media de la muestra es

$\bar{x}=\frac{22.5+...+...+25.2}{20}=24.9$ y su desviación estándar es

$s=\sqrt[]{\frac{\sum( x-\bar{x}^2)}{n-1}} =\sqrt[]{\frac{(22.5-24.9)^2+...+(25.2-24.9)^2}{19}}=1.53$

Para determinar el intervalo de confianza de 95% buscamos en la tabla en la columna del 0.05/2 y el renglóncorrespondiente a 19= n-1, que son los grados de libertad. El valor de t es2.093. Por lo tanto el intervalo de confianza del 95% es

$\bar{x} - t_{\alpha/2} \cdot{\frac{s}{\sqrt[]{n}}} < \mu < \bar{x} + t_{\alpha/2} \cdot{\frac{s}{\sqrt[]{n}}}$

$24.9- 2.093 \cdot{\frac{153}{\sqrt[]{20}}} < \mu < 24.9 + 2.093 \cdot{\frac{153}{\sqrt[]{20}}}$

$24.9 - 0.72 < \mu < 24.9 + 0.72$
24.18 <

$\mu$ < 25.62

Esto significa que con probabilidad 0.95 el nivel medio de nicotina de la marca competidora esta entre 24.18 y 25.62 o bien, que al estimar el nivel medio de nicotina como 24.9 mg sabemos que con un grado de confianza del 95% el error es menor a 0.72 mg.

Apuntes matemáticos

martes, 24 de julio de 2012

Intervalos de confianza para medias

No hay comentarios: