domingo, 15 de julio de 2012

Distribuciones muestrales y el teorema del límite central


Supongamos que para un estudio nutricional necesitamos obtener los promedios de los pesos y estaturas de los niños de 7 años de una región en un estado de la Republica. Si en esta región viven 50 000 niños de 7 años resultaría muy costoso y lento visitar a cada uno de ellos para pesarlo y medirlo. En la práctica, este tipo de estudios lo hacemos por medio de muestras. Digamos  que realizamos una muestra de 400 niños y obtenemos la media de la muestra. ¿Qué tan confiable serían nuestros resultados? ¿Dependen de la muestra elegida?
Con el fin de familiarizarnos con la forma de estudiar estos problemas analizaremos un  caso muy simple. Supongamos que tenemos una población de N=5 niños  y que nuestras muestras son de tamaño N=2. Es claro que para un problema de este tamaño simplemente tomamos las alturas de los cinco niños, las sumamos, dividimos por cinco y se acabó. El objeto de este análisis es sólo el de entender algunos aspectos importantes del problema original a través de este ejemplo. La siguiente tabla muestra las alturas de los cinco niños:

La media de las alturas es
$ \mu=\frac{1.20+1.18+1.32+1.23+1.28}{5}=1.242$
Y su desviación estándar es
$ \sigma=\sqrt[]{\frac{(1.2-1.242)^2+(1.18-1.242)^2+...+(1.28-1.242)^2}{5}}  =0.05154$
Hay un total de $ \displaystyle\binom{5}{2}=\frac{5\cdot{4}}{2}=10$ muestras posibñes. Para cada una de estas muestras tenemos una media $\overline{x}$. Por ejemplo, para la muestra $ \left\{{1,2}\right\}$, su media es $\overline{x}$ = (1.2+1.18)/2 =1.19 y para la muestra $ \left\{{3,5}\right\}$ su media es $\overline{x}$= (1.32+1.28)/2 = 1.30, etc.
Si pensamos que la muestra que tomamos depende del azar, la media $\overline{x}$ asociada a cada muestra es entonces una variable aleatoria. Dos aspectos importantes de esta variable aleatoria son su media y su desviación estándar. La media de esta variable aleatoria que denotamos por $\mu_{\overline{x}}$ y llamamos media de la distribución muestral, es la media de las medias de cada muestra, y la desviación estándar, que denotamos $ \sigma_{\overline{x}}$ y llamamos error estándar de la media, es la desviación estándar de las medias de las muestras.

Para calcular la media de la distribución muestral y el error estándar de la media  (o desviación estándar de la distribución de medias) debemos aplicar los métodos vistos enpost anteriores. En particular para determinar el error estándar de la media emplearemos la expresión
$ \sigma=\sqrt[]{\frac{N(\sum x^2)-(\sum x)^2}{N^2}} $

En la siguiente tabla se aprecian estos cálculos.
Ahora el total de muestras es N=10, por lo que la media de la distribución  es
$\mu_{\overline{x}} =\frac{12.42}{10}=1.242$
Y el error estándar de la media es
 $\sigma=\sqrt[]{\frac{N(\sum x^2)-(\sum x)^2}{N^2}} = \sqrt[]{\frac{10(15.4356)-(12.42)^2}{100}}=0.03156.$
Por lo tanto, la media de la distribución muestral coincide con la media de la distribución de la población original, pero el error estándar de la media es menor que la desviación estándar de la población original.


Hay dos resultados muy importantes que describen la distribución de la variable aleatoria $\overline{x}$. El primero de ellos nos dice que, como en el ejemplo que desarrollamos de las alturas de los cinco niños, la media de la distribución muestral siempre coincide con la media de la población y que el error estándar de la media es siempre menor que la desviación estándar de la población. Más precisamente:
Si tomamos muestras de tamaño n de una población de tamaño N con media  $\mu$ y desviación estándar $\sigma$, entonces la distribución muestral $\overline{x}$ tiene media $\mu_\overline{x} =\mu$ y desviación estándar
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-N}{N-1}}}$

Esta fórmula nos permite estimar la variabilidad de las medias muestrales  (el error estándar de la media $\sigma_\overline{x}$) en relación a la variabilidad de la población (la desviación estándar $\sigma $ ). En el ejemplo de las alturas de los cinco niños vimos que su desviación estándar es $\sigma$ =0.05154. De acuerdo a la fórmula de arriba el error estándar de la media es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{0.05154}{\sqrt[]{2}}\cdot{\sqrt[]{\frac{5-2}{5-1}}}=\frac{0.05154}{\sqrt[]{2}}\cdot{\sqrt[]{\frac{3}{4}}}=0.03156$
Que coincide  con el valor que obtuvimos para la desviación estándar de la distribución de $\overline{x}$. Cuando N > 20 n el factor $\sqrt[]{\frac{N-n}{N-1}}$ de la fórmula de arriba es muy cercano a 1 puede ser omitido, esto es,
Si N> 20n, entonces $\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}$
Supongamos que tenemos una población de N=900 y una desviación estándar $\sigma$. ¿Cómo cambia el error estándar de la muestra si el tamaño de la muestra n disminuye de 100 a 50?
Debemos determinar primero qué expresión usar para calcular el error estándar de la media $\sigma_\overline{x}$. Como N=900 no es mayor que 20 n tanto para n=50 como para n=100, en ambos casos debemos emplear la fórmula completa. Para n=50 el error estándar de la media es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{ \sigma}{\sqrt[]{50}}\cdot{\sqrt[]{\frac{850}{899}}}=0.1375\sigma$
Y para n=100 es
$\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}\cdot{\sqrt[]{\frac{N-n}{N-1}}} = \frac{ \sigma}{\sqrt[]{100}}\cdot{\sqrt[]{\frac{800}{899}}}=0.0943\sigma$

La Razón entre estos dos errores estándar de la media es $\frac{0.1375\sigma}{0.0943\sigma}=1.46$ Esto significa que si el tamaño de la muestra disminuye de 100 a 50, entonces el error estándar de la media aumenta 1.46 veces.
El segundo resultado importante al que nos referimos antes es conocido como el teorema del límite central y nos permite aproximar en muchos casos la distribución muestral de las medias por medio de la distribución normal.
Teorema del límite central. Si n es grande la distribución muestral de las medias puede aproximarse por medio de una distribución normal.

Este resultado es verdaderamente importante en la estadística ya que permite el empleo de la distribución normal en una amplia variedad de problemas. Aun cuando no especifica que tan grande  debe ser el tamaño de la muestra n para poder aproximar la distribución muestral $\overline{x}$ por una normal, una buena regla es que basta que n sea mayor o igual a 30.
Veamos ahora un par de ejemplos que ilustren el uso de estos resultados.
a) Supongamos que la población de niños de siete años que deseamos estudiar es de N=50 000 y que por estudios de la Organización Mundial de la Salud sabemos que la desviación estándar de las alturas de los niños de esta edad es $\sigma$=10 cm. Para estudiar sus alturas tomamos una muestra aletoria de n=400 niños. Si la media de esta muestra fue de $\overline{x}$=122 cm ¿qué tan razonable es tomar 122 cm como la media de la población?
El valor $\mu$ de la media de la población es desconocido, pero sabemos por el teorema del límite central que la distribución muestral de las medias es una variable aleatoria normal con misma media $\mu$ y con desviación estándar $\sigma_\overline{x}$. Para calcular $\sigma_\overline{x}$ vemos primero que
N=50 000 > 8000= 20n,
Por lo cual
   $\sigma_\overline{x}$=$\frac{\sigma}{\sqrt[]{n}}=\frac{10}{\sqrt[]{400}}=0.5$.
Como la variable $\overline{x}$ es normal con media $\mu$ y desviación estándar 0.5, por medio de la tabla de áreas bajo la curva normal podremos determinar la probabilidad de que la variable aleatoria $\overline{x}$ se encuentre a cierta distancia de $\mu$. Por ejemplo, veamos cómo determinar la probabilidad de que el error en la estimación de la media sea menor a un centímetro. Esta probabilidad corresponde al área bajo la distribución muestral de las medias entre los valores de $\mu-1$ y $\mu+1$

Observemos que $\overline{x}$ se encuentra entre $\mu -1$ y $\mu + 1$ si
$\mu -1 < \overline{x} <\mu +1 $
Que al restar $\mu $ equivale a
$-1 < \overline{x} <1 $
Y al dividir por $ \sigma_\overline{x}=0.5$da
$-\frac{1}{0.5}<\frac{\overline{x}- \mu}{\sigma_\overline{x}}$$ < \frac{1}{0.5}$

Que es igual a
-2 < z < 2
En la tablade áreas bajo la curva normal vemos que el área entre z=0 y z=2 es 0.4772, de modo que por simetría el área entre -2 y 2 es 2 (0.4772)=0.9544. Como el valor de $\overline{x}$ =122 fue aleatorio, la probabilidad de que la media se encuentre a menos de 1 cm de 122 cm es de 0.9544.
b) Una región agrícola consta de 200 000 hectáreas donde se siembra trigo. Para estimar la producción media por hectárea se realiza una muestra de 900 hectáreas que tuvieron en promedio una productividad de $\overline{x}$  = 3.4 toneladas. La  Secretaría de agricultura estima que la desviación estándar de la productividad del trigo en la región es de $\sigma$= 0.8 toneladas. ¿Cuál es la probabilidad de que nuestra estimación de la producción media en la región tenga un error de a lo más 0.05 toneladas?
De nuevo el valor de $\mu$ de la producción media en la región es desconocido, pero sabemos que la distribución muestral de las medias es normal con media $\mu$ y desviación estándar $\sigma_\overline{x} $. Como N= 20000 >18000020n,
$ \sigma_\overline{x}=\frac{\sigma}{\sqrt[]{n}}=\frac{0.8}{\sqrt[]{900}}=0.0266. $
Deseamos calcular la probabilidad de que el valor $\overline{x}$=3.4 toneladas se encuentre a lo más 0.05 toneladas de la media $\mu$. Si procedemos como en el ejemplo anterior, tendremos que esta probabilidad corresponde al área bajo la curva normal estándar entre
$-\frac{0.05}{0.0266}=-1.88 y \frac{0.05}{0.0266}=1.88$
El área bajo la curva normal estándar entre -1.88 y 1.88 es dos veces el área entre 0 y 1.88. Al buscar en la tabla de áreas bajo la curva normal el valor de 1.88 obtenemos que esta área es 0.4699, por lo que la probabilidad de que la productividad media de la región se encuentre entre 3.35 y 3.45 es de 2(0.4699)=0.94.

No hay comentarios: