EL objetivo de la estadística inferencial es el hacer
generalizaciones basadas en muestras. Una de las aplicaciones más frecuentes es
la estimación de medias. Supongamos que tenemos una muestra de 30 lecturas
durante cierto periodo invernal del nivel de ozono en una zona de la ciudad de
México. En la tabla tenemos
La media de esta muestra es $\overline{x}$=213.5 imecas. Si
ésta es la única información que poseemos, podemos emplear este valor como una estimación
de la media del nivel de ozono en la zona durante la época invernal. Una
estimación así es llamada una estimación puntual pues consiste de un único
número o punto de la recta real. A pesar de que este tipo de estimación es muy natural,
no brinda información sobre el tamaño del error. En un post anterior observamoscomo la desviación estándar de la población y el tamaño de la muestradeterminan la variabilidad de la distribución muestral de las medias, ya queentre menor sea el error estándar de lamedia mejor será nuestra estimación puntual. Una forma alternativa que brinda
más información consiste en estimar la
media por medio de un intervalo. Recordemos que un intervalo de números reales
consiste en todos aquellos números reales que se encuentran entre dos valores o
límites del intervalo. Por ejemplo, los números que se encuentran entre 5.45 y
8.22 forman el intervalo $\left\{{t|5.45 < t < 8.22}\right\}$.
El teorema del límite central nos permite entonces asociar a un intervalo alrededor
de nuestro valor de $\bar{x}$=213.5 una probabilidad o grado de certidumbre de
que la media que estimamos se encuentre efectivamente entre estos límites. Una
estimación por un intervalo consiste entonces de un intervalo y de una
probabilidad de que la media se encuentre en este intervalo.
Una dificultad inmediata para realizar estimaciones por
intervalo es que la probabilidad asociada al intervalo depende de la
variabilidad de la distribución muestral de las medias, es decir de la desviación
estándar, y ésta a su vez depende del tamaño de la muestra y de la desviación estándar
de la población. Cuando no se tiene mayor
información acerca de la desviación estándar de la población $\sigma$,
tomamos la desviación estándar de la muestra s en lugar de $\sigma$. En el caso
del ozono, como se trata de una muestra, la desviación estándar está dada por
$s=\sqrt[]{\frac{\sum(x-\bar{x})^2}{n-1}}=\sqrt[]{\frac{(178-213.5)^2+L+(193-213.5)^2}{29}}=24.87$
También podríamos haber utilizado la fórmula
$ s=\sqrt[]{\frac{n \left |{\sum x^2}\right |-(\sum
x)^2}{n(n-1)}}$
Para calcular este valor. Debido a que el número total de
posibles lecturas N es muy grande, podemos entonces tomar como error estándar
de la media a
$\sigma_\bar{x}$=$\frac{\sigma}{\sqrt[]{n}}=\frac{24.87}{\sqrt[]{30}}=4.54.$
Supongamos ahora que deseamos establecer los límites del
intervalo con centro en 213.5 para el cual la probabilidad de que la media se
encuentre ahí es de 0.8. Si buscamos en la tabla de áreas bajo la curva normal
el valor de z que corresponde a 0.8/2 = 0.4 obtenemos que z=1.28. Por lo tanto,
el área bajo la curva normal estándar entre -1.28 y 1.28 es 0.8 y como esto es
en unidades estándar equivale a
$ -1.28 < \frac{213.5-\mu}{4.54} < 1.28.$
Si multiplicamos esta desigualdad por 4.54 se obtiene
-5.81 < 213.5-$\mu $ < 5.81
Que al restar 213.5 equivale a
-219.3 < -$\mu $ < -207.7.
Finalmente, recordando que al multiplicar una desigualdad
por -1 ésta se invierte, se tiene
207.7 < $\mu$ <
219.3
Este es el intervalo buscado e
indica que la media $\mu $ se encuentra entre 207.7 y 219.3 con probabilidad
0.8. A un intervalo como este se le conoce como un intervalo de confianza, a
sus extremos como límites de confianza y a la probabilidad asociada como grado
de confianza. Con el objeto de no repetir este desarrollo cada vez que deseemos
determinar un intervalo de confianza es fácil ver que
Si la, población es grande en relación
al tamaño de la muestra (N > 20n) y el tamaño de la muestra es mayor o igual
que 30 el intervalo grande confianza para $\mu$ de grado de confianza $\alpha$
es
$\bar{x} - z_0
\cdot{\frac{\sigma}{\sqrt[]{n}}} <
\mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$
Donde el área bajo la curva normal
estándar entre 0 y $z_0$ es $\alpha$ /2 , esto es, con un grado de confianza $\alpha$
el error al estimar la media por $\bar{x}$ es menor a
$z_0
\cdot{\frac{\sigma}{\sqrt[]{n}}}$
Cuando la desviación estándar de
la población $\sigma$ es desconocida y n es grande ($n\geq30$) podemos sustituir $\sigma $ por
la desviación estándar de la muestra s . Los grados de confianza más empleados
son 0.95 y 0.99 y sus correspondientes $z_0$ son 1.96 y 2.575. A estos
intervalos también se les conoce como intervalos de confianza del 95% y 99%.
Para encontrar estos intervalos de
confianza en el caso del nivel de contaminación de ozono en la ciudad de México
tenemos que
$\bar{x} - z_0
\cdot{\frac{\sigma}{\sqrt[]{n}}} <
\mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$
$213.5 - 1.96
\cdot{\frac{24.87}{\sqrt[]{30}}} <
\mu < 213.5 + 1.96\cdot{\frac{24.87}{\sqrt[]{30}}}$
$213.5-8.9 < \mu < 213.5 + 8.9$
Por lo que el intervalo de
confianza del 95% es 204.6 < $\mu$ <
222.4. Por lo tanto, sabemos que con probabilidad 0.95 la media se encuentra
entre 204.6 y 222.4, o bien, que con un grado de confianza del 95 % el error al
estimar la media como 213.5 es menor a 8.9. Si deseamos aumentar el grado de
certeza al 99% entonces el intervalo será
$ \bar{x} -z_0
\cdot{\frac{\sigma}{\sqrt[]{n}}}=213.5-2.575\cdot{\frac{24.87}{\sqrt[]{30}}}
< \mu < 213.5 +2.575 \cdot{\frac{24.87}{\sqrt[]{30}}}=\bar{x}+
z_o\cdot{\frac{\sigma}{\sqrt[]{n}}}$
Que es 201.7 < $\mu$ <
225.2. Observemos que entre mayor sea la certidumbre (grado de confianza) mayor
es también el intervalo.
Consideremos de nuevo el ejemplodel post anterior de la región agrícola de 200000 hectareas sonde se siembratrigo. Se realizó una muestra de 900 hectareas con una productividad media de $\bar{x}$
=3.4 toneladas y donde la desviación estándar de la productividad de trigo en
la región es de $\sigma$= 0.8 toneladas.
Obtengamos ahora los intervalos de confianza de 90%, 95% y 99%.
Como el número total de hectáreas
es muy grande podemos emplear la fórmula
$\bar{x} - z_0
\cdot{\frac{\sigma}{\sqrt[]{n}}} <
\mu < \bar{x} + z_0 \cdot{\frac{\sigma}{\sqrt[]{n}}}$
Para determinar estos intervalos. Sustituyendo
los valores de arriba se tiene
$
3.4 - z_0 \cdot{\frac{0.8}{\sqrt[]{900}}} < \mu < 3.4 + z_0
\cdot{\frac{0.8}{\sqrt[]{900}}}$
Para obtener el intervalo de
confianza del 90% debemos encontrar el valor z de la tabla de áreas bajo lacurva normal que corresponde a 0.45 que corresponde a 0.45 que es $z_0$ =1.645.
Ya mencionamos arriba que los valores de $z_0$ para el 95% y el 99% son 1.96 y
2.575. De esta manera es fácil ver que entonces los intervalos resultan ser
$ 3.356 < \mu < 3.44, 3.348 < \mu < 3.452 y 3.331 <
\mu < 3.469.$
La expresión $z_0\cdot{\frac{\sigma}{\sqrt[]{n}}}$
representa el eror máximo al estimar la media por $\bar{x}$ con grado de
confianza $\alpha$ y puede ser usada para determinar el tamaño de la muestra
cuando se sedea cierto grado de precisión.
Supongamos que un fabricante de
llantas desea determinar la vida promedio de cierto tipo de llantas con un
grado de certeza del 99% y con un error menor a 1000 km. Po estudios previos el
fabricante sabe que la desviación estándar para este tipo de llantas es de 3000
km ¿Qué tán grande sebe ser la muestra?
Si E es el error máximo, entonces $E=z_0\cdot{\frac{\sigma}{\sqrt[]{n}}}
=2.575\cdot{\frac{3000}{\sqrt[]{n}}}$ y como deseamos que E sea 1000, obtenemos
la ecuación $1000=2.575\cdot{\frac{3000}{\sqrt[]{n}}}$, que al resolver da $\sqrt[]{n}=7.725$.
Para obtener el valor de n elevamos al cuadrado para llegar a n =59.67, y como
este número no es entero debemos redondear hacia arriba para tener n=60.
$ 24.9- 2.093 \cdot{\frac{153}{\sqrt[]{20}}} < \mu < 24.9 + 2.093 \cdot{\frac{153}{\sqrt[]{20}}}$
$24.9 - 0.72 < \mu < 24.9 + 0.72 $
24.18 < $\mu$ < 25.62
La estimación de intervalos de
confianza para muestras pequeñas, n <30, es, muy semejante al caso de
muestras grandes cuando la distribución de la población que estamos analizando
tiene forma de campana. Sin embargo, es necesario reemplazar la distribución
normal por otra distribución continua llamada distribución t. Esta distribución
tiene también forma de campana pero con las colas un poco más levantadas. De
hecho, su forma exacta depende de un
parámetro llamado grados de libertad, que es simplemente n-1 el tamaño de la
muestra menos uno.
Si el tamaño de la muestra es
pequeño (n < 30) el intervalo de confianza para $\mu$ de grado de confianza
$ 1-\alpha$ es
$ \bar{x} - t_{\alpha/2} \cdot{\frac{s}{\sqrt[]{n}}} < \mu < \bar{x} + t_{\alpha/2}
\cdot{\frac{s}{\sqrt[]{n}}}$
Donde el valor $t_{\alpha/2}$
viene dado por una tabla de la distribución t.
En esta tabla aparecen los valores
de t que nos permiten calcular los valores de t correspondientes a los valores $t_{\alpha/2}$=
$t_{0.25},t_{0.1},t_{0.05},t_{0.025},t_{0.01},t_{0.005}$ que nos permiten
calcular los intervalos de confianza del 50%, 80%,90%, 95%, 98 y 99%
respectivamente.
El siguiente ejemplo ilustra el
uso de la distribución t en la determinación de intervalos de confianza para
medias de muestras pequeñas.
Una empresa realizó un estudio del
nivel de nicotina para una muestra de 20 cigarrillos producidos por otra empresa.
La siguiente tabla muestra la cantidad de nicotina contenida en cada uno de los
cigarrillos de la muestra.
La media de la muestra es $\bar{x}=\frac{22.5+...+...+25.2}{20}=24.9$
y su desviación estándar es
$ s=\sqrt[]{\frac{\sum(
x-\bar{x}^2)}{n-1}} =\sqrt[]{\frac{(22.5-24.9)^2+...+(25.2-24.9)^2}{19}}=1.53$
Para determinar el intervalo de
confianza de 95% buscamos en la tabla en la columna del 0.05/2 y el renglóncorrespondiente a 19= n-1, que son los grados de libertad. El valor de t es2.093. Por lo tanto el intervalo de confianza del 95% es
$ \bar{x} - t_{\alpha/2} \cdot{\frac{s}{\sqrt[]{n}}} < \mu < \bar{x} + t_{\alpha/2} \cdot{\frac{s}{\sqrt[]{n}}}$$ 24.9- 2.093 \cdot{\frac{153}{\sqrt[]{20}}} < \mu < 24.9 + 2.093 \cdot{\frac{153}{\sqrt[]{20}}}$
$24.9 - 0.72 < \mu < 24.9 + 0.72 $
24.18 < $\mu$ < 25.62
Esto significa que con
probabilidad 0.95 el nivel medio de nicotina de la marca competidora esta entre
24.18 y 25.62 o bien, que al estimar el nivel medio de nicotina como 24.9 mg
sabemos que con un grado de confianza del 95% el error es menor a 0.72 mg.
No hay comentarios:
Publicar un comentario