Supongamos que para un estudio nutricional necesitamos
obtener los promedios de los pesos y estaturas de los niños de 7 años de una
región en un estado de la Republica. Si en esta región viven 50 000 niños de 7
años resultaría muy costoso y lento visitar a cada uno de ellos para pesarlo y
medirlo. En la práctica, este tipo de estudios lo hacemos por medio de
muestras. Digamos que realizamos una
muestra de 400 niños y obtenemos la media de la muestra. ¿Qué tan confiable
serían nuestros resultados? ¿Dependen de la muestra elegida?
Con el fin de familiarizarnos con la forma de estudiar estos
problemas analizaremos un caso muy
simple. Supongamos que tenemos una población de N=5 niños y que nuestras muestras son de tamaño N=2. Es
claro que para un problema de este tamaño simplemente tomamos las alturas de
los cinco niños, las sumamos, dividimos por cinco y se acabó. El objeto de este
análisis es sólo el de entender algunos aspectos importantes del problema
original a través de este ejemplo. La siguiente tabla muestra las alturas de
los cinco niños:
La media de las alturas es
$ \mu=\frac{1.20+1.18+1.32+1.23+1.28}{5}=1.242$
Y su desviación estándar es
$
\sigma=\sqrt[]{\frac{(1.2-1.242)^2+(1.18-1.242)^2+...+(1.28-1.242)^2}{5}} =0.05154$
Hay un total de $ \displaystyle\binom{5}{2}=\frac{5\cdot{4}}{2}=10$
muestras posibñes. Para cada una de estas muestras tenemos una media $\overline{x}$.
Por ejemplo, para la muestra $ \left\{{1,2}\right\}$, su media es $\overline{x}$
= (1.2+1.18)/2 =1.19 y para la muestra $ \left\{{3,5}\right\}$ su media es $\overline{x}$=
(1.32+1.28)/2 = 1.30, etc.
Si pensamos que la muestra que tomamos depende del azar, la
media $\overline{x}$ asociada a cada muestra es entonces una variable
aleatoria. Dos aspectos importantes de esta variable aleatoria son su media y
su desviación estándar. La media de esta variable aleatoria que denotamos por $\mu_{\overline{x}}$
y llamamos media de la distribución muestral, es la media de las medias de cada
muestra, y la desviación estándar, que denotamos $ \sigma_{\overline{x}}$ y llamamos
error estándar de la media, es la desviación estándar de las medias de las
muestras.
Para calcular la media de la distribución muestral y el
error estándar de la media (o desviación
estándar de la distribución de medias) debemos aplicar los métodos vistos enpost anteriores. En particular para determinar el error estándar de la media
emplearemos la expresión
$ \sigma=\sqrt[]{\frac{N(\sum x^2)-(\sum x)^2}{N^2}} $
En la siguiente tabla se aprecian estos cálculos.
Ahora el total de muestras es N=10, por lo que la media de
la distribución es
$\mu_{\overline{x}} =\frac{12.42}{10}=1.242$
Y el error estándar de la media es
$\sigma=\sqrt[]{\frac{N(\sum
x^2)-(\sum x)^2}{N^2}} = \sqrt[]{\frac{10(15.4356)-(12.42)^2}{100}}=0.03156.$
Por lo tanto, la media de la distribución muestral coincide
con la media de la distribución de la población original, pero el error
estándar de la media es menor que la desviación estándar de la población
original.
Hay dos resultados muy importantes que describen la
distribución de la variable aleatoria $\overline{x}$. El primero de ellos nos
dice que, como en el ejemplo que desarrollamos de las alturas de los cinco
niños, la media de la distribución muestral siempre coincide con la media de la
población y que el error estándar de la media es siempre menor que la
desviación estándar de la población. Más precisamente:
Si tomamos muestras de tamaño n de una población de tamaño N
con media $\mu$ y desviación estándar $\sigma$,
entonces la distribución muestral $\overline{x}$ tiene media $\mu_\overline{x}
=\mu$ y desviación estándar
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-N}{N-1}}}$
Esta fórmula nos permite estimar la variabilidad de las
medias muestrales (el error estándar de
la media $\sigma_\overline{x}$) en relación a la variabilidad de la población
(la desviación estándar $\sigma $ ). En el ejemplo de las alturas de los cinco
niños vimos que su desviación estándar es $\sigma$ =0.05154. De acuerdo a la
fórmula de arriba el error estándar de la media es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{0.05154}{\sqrt[]{2}}\cdot{\sqrt[]{\frac{5-2}{5-1}}}=\frac{0.05154}{\sqrt[]{2}}\cdot{\sqrt[]{\frac{3}{4}}}=0.03156$
Que coincide con el
valor que obtuvimos para la desviación estándar de la distribución de $\overline{x}$.
Cuando N > 20 n el factor $\sqrt[]{\frac{N-n}{N-1}}$ de la fórmula de arriba
es muy cercano a 1 puede ser omitido, esto es,
Si N> 20n, entonces $\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}$
Supongamos que tenemos una población de N=900 y una
desviación estándar $\sigma$. ¿Cómo cambia el error estándar de la muestra si
el tamaño de la muestra n disminuye de 100 a 50?
Debemos determinar primero qué expresión usar para calcular
el error estándar de la media $\sigma_\overline{x}$. Como N=900 no es mayor que
20 n tanto para n=50 como para n=100, en ambos casos debemos emplear la fórmula
completa. Para n=50 el error estándar de la media es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{ \sigma}{\sqrt[]{50}}\cdot{\sqrt[]{\frac{850}{899}}}=0.1375\sigma$
Y para n=100 es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{ \sigma}{\sqrt[]{100}}\cdot{\sqrt[]{\frac{800}{899}}}=0.0943\sigma$
La Razón
entre estos dos errores estándar de la media es $\frac{0.1375\sigma}{0.0943\sigma}=1.46$
Esto significa que si el tamaño de la muestra disminuye de 100 a 50, entonces
el error estándar de la media aumenta 1.46 veces.
El segundo
resultado importante al que nos referimos antes es conocido como el teorema del
límite central y nos permite aproximar en muchos casos la distribución muestral
de las medias por medio de la distribución normal.
Teorema del
límite central. Si n es grande la distribución muestral de las medias puede
aproximarse por medio de una distribución normal.
Este
resultado es verdaderamente importante en la estadística ya que permite el
empleo de la distribución normal en una amplia variedad de problemas. Aun
cuando no especifica que tan grande debe
ser el tamaño de la muestra n para poder aproximar la distribución muestral $\overline{x}$ por una normal,
una buena regla es que basta que n sea mayor o igual a 30.
Veamos ahora
un par de ejemplos que ilustren el uso de estos resultados.
a)
Supongamos que la población de niños de siete años que deseamos estudiar es de
N=50 000 y que por estudios de la Organización Mundial de la Salud sabemos que
la desviación estándar de las alturas de los niños de esta edad es $\sigma$=10
cm. Para estudiar sus alturas tomamos una muestra aletoria de n=400 niños. Si
la media de esta muestra fue de $\overline{x}$=122 cm ¿qué tan razonable es
tomar 122 cm como la media de la población?
El valor $\mu$
de la media de la población es desconocido, pero sabemos por el teorema del
límite central que la distribución muestral de las medias es una variable
aleatoria normal con misma media $\mu$ y con desviación estándar $\sigma_\overline{x}$.
Para calcular $\sigma_\overline{x}$ vemos primero que
N=50 000
> 8000= 20n,
Por lo cual
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}=\frac{10}{\sqrt[]{400}}=0.5$.
Como la
variable $\overline{x}$ es normal con media $\mu$ y desviación estándar 0.5,
por medio de la tabla de áreas bajo la curva normal podremos determinar la
probabilidad de que la variable aleatoria $\overline{x}$ se encuentre a cierta
distancia de $\mu$. Por ejemplo, veamos cómo determinar la probabilidad de que
el error en la estimación de la media sea menor a un centímetro. Esta
probabilidad corresponde al área bajo la distribución muestral de las medias
entre los valores de $\mu-1$ y $\mu+1$
Observemos
que $\overline{x}$ se encuentra entre $\mu -1$ y $\mu + 1$ si
$\mu -1 <
\overline{x} <\mu +1 $
Que al
restar $\mu $ equivale a
$-1 < \overline{x}
<1 $
Y al dividir
por $ \sigma_\overline{x}=0.5$da
$-\frac{1}{0.5}<\frac{\overline{x}- \mu}{\sigma_\overline{x}}$$ < \frac{1}{0.5}$
$-\frac{1}{0.5}<\frac{\overline{x}- \mu}{\sigma_\overline{x}}$$ < \frac{1}{0.5}$
Que es igual
a
-2 < z
< 2
En la tablade áreas bajo la curva normal vemos que el área entre z=0 y z=2 es 0.4772, de
modo que por simetría el área entre -2 y 2 es 2 (0.4772)=0.9544. Como el valor
de $\overline{x}$ =122 fue aleatorio, la probabilidad de que la media se
encuentre a menos de 1 cm de 122 cm es de 0.9544.
b) Una
región agrícola consta de 200 000 hectáreas donde se siembra trigo. Para
estimar la producción media por hectárea se realiza una muestra de 900
hectáreas que tuvieron en promedio una productividad de $\overline{x}$ = 3.4 toneladas. La Secretaría de agricultura estima que la
desviación estándar de la productividad del trigo en la región es de $\sigma$=
0.8 toneladas. ¿Cuál es la probabilidad de que nuestra estimación de la
producción media en la región tenga un error de a lo más 0.05 toneladas?
De nuevo el
valor de $\mu$ de la producción media en la región es desconocido, pero sabemos
que la distribución muestral de las medias es normal con media $\mu$ y
desviación estándar $\sigma_\overline{x} $. Como N= 20000 >18000020n,
$
\sigma_\overline{x}=\frac{\sigma}{\sqrt[]{n}}=\frac{0.8}{\sqrt[]{900}}=0.0266. $
Deseamos
calcular la probabilidad de que el valor $\overline{x}$=3.4 toneladas se
encuentre a lo más 0.05 toneladas de la media $\mu$. Si procedemos como en el
ejemplo anterior, tendremos que esta probabilidad corresponde al área bajo la
curva normal estándar entre
$-\frac{0.05}{0.0266}=-1.88
y \frac{0.05}{0.0266}=1.88$
El área bajo
la curva normal estándar entre -1.88 y 1.88 es dos veces el área entre 0 y 1.88.
Al buscar en la tabla de áreas bajo la curva normal el valor de 1.88 obtenemos
que esta área es 0.4699, por lo que la probabilidad de que la productividad media
de la región se encuentre entre 3.35 y 3.45 es de 2(0.4699)=0.94.
No hay comentarios:
Publicar un comentario