sábado, 29 de septiembre de 2012

Pruebas de hipótesis para proporciones y diferencias de proporciones.


En esta post abordaremos el problema de probar, basándonos en datos observados en una muestra, si el valor de una proporción, porcentaje o probabilidad es igual a cierta constante. Mediante estas pruebas es posible a través de muestras aleatorias, por ejemplo, decidir si la proporción de estudiantes de un plantel del Conalep que fuman es igual 0.6 o si la probabilidad de que una empresa reciba pedidos por más de $\$$  60 000.00 a la semana es de 0.30. Este tipo de decisiones se fundamentan, por ejemplo, en el número $\overline{x}$ de estudiantes que fuman de una muestra de tamaño n, y en general, en el número  $\overline{x}$ de de éxitos observados en n ensayos. Cuando el tamaño de la muestra es grande ($n \geq 30$), los métodos para probar proporciones son básicamente idénticos a los de las medias de estos 2 posts.
Supongamos que deseamos saber si la proporción de teléfonos en una zona de oficinas que contrataron a Avantel como su compañía de larga distancia es igual a la proporción de 0.2 que Salma Hayek asegura en los comerciales de Avantel. Supongamos además que decidimos  basar nuestra prueba en un nivel de significancia de 0.05 y en una muestra aleatoria de 150 teléfonos.
La hipótesis nula es p = 0.2 y la hipótesis alternativa es $p \neq 0.2$. Si suponemos que la proporción de 0.2 es la proporción real de teléfonos en la zona de oficinas, entonces el número $ \bar{x}$ de teléfonos de la muestra que contrataron Avantel tiene una distribución binomial con parámetros n = 150 y $p_0 = 0.2 $. Como n es grande, podemos aproximar esta distribución por una distribución normal con media $np_0 = 150 x 0.2 = 30$ y desviación estándar $\sqrt[]{np_0 (1-p_0)} = \sqrt[]{150 \cdot{0.2 (1-0.2)}}= 4.9$. Esto significa que la probabilidad de que
$-1.96 < \frac{\overline{x}-30}{4.9} < 1.96$
es0.95. Por lo tanto vamos a aceptar la hipótesis p = 0.2 únicamente si se satisface la desigualdad anterior. Por ejemplo, si $ \overline{x}$ fuese 26, entonces $\frac{26-30}{4.9} = -0.81$, y como este valor se encuentra entre -1.96 y 1.96, debemos aceptar la proporción de teléfonos en la zona suscritos  a Avantel es 0.2.
En general, las pruebas para probar si $p=p_0$ se basan en determinar si
$ z=\frac{\overline{x}-np_0}{\sqrt[]{np_0(1-p_0)}}$
Se encuentra dentro de los mismos valores críticos para medias con muestras grandes:


Consideremos ahora un ejemplo unilateral. Supongamos que las oficinas de Green Peace en México sospechan que el porcentaje de días invernales que se rebasan los 200 imecas de ozono en la zona Suroeste del D.F es superior al 50% que afirman las autoridades ambientales del departamento del distrito federal. En una muestra aleatoria de 70 días invernales de diferentes años se observa que en 42 se rebasaron los 200 imecas en la zona suroeste. Con un nivel de significancia de 0.05, ¿hay evidencia estadística para rebatir a las autoridades del Departamento del Distrito Federal?
La hipótesis nula es p =0.5 y la hipótesis alternativa es p > 0.5. Como el nivel de significancia es de 0.05 la hipótesis nula debe rechazarse si z  > 1.645, donde
$ z=\frac{\overline{x}-np_0}{\sqrt[]{np_0(1-p_0)}}=  z=\frac{42-70\cdot{0.5}}{\sqrt[]{70\cdot{0.5}(1-0.5)}}=1.67$
Como 1.67 resultó mayor que 1.645, se rechaza la hipótesis nula; esto es, con probabilidad de 0.95, más del 50% de los días invernales rebasan los 200 imecas de ozono.

Las pruebas para diferencias entre proporciones se basan en el siguiente hecho: si $\overline{x}_1$  es el  número de éxitos obtenidos en una muestra de $n_1$ ensayos independientes con una probabilidad de éxtio de $p_1$ y si $\overline{x}_2$ es el número de éxitos obtenidos en una muestra de $n_2$ ensayos independientes con una probabilidad de éxito de $p_2$, entonces la distribución de la diferencia de las proporciones $\frac{\overline{x}_1}{\overline{n}_1}-\frac{\overline{x}_2}{\overline{n}_2}$ tiene media $p_1 – p_2$ y desviación estándar
$\sqrt[]{\frac{p_1 (1-p_1)}{n_1}+{\frac{p_2 (1-p_2)}{n_2}}}$
Cuando probamos la hipótesis nula $p_1 = p_2 $ la media de la diferencia $ \frac{\bar{x_1}}{n_1} - \frac{\bar{x_2}}{n_2}$ es 0 u su desviación estándar es
$ \sqrt[]{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}$
Donde la proporción p es en general estimada como la proporción combinada $\frac{\overline{x}_1+\overline{x}_2}{\overline{n}_1+\overline{n}_2}$.

Así, cuando $\overline{n_1}\geq 30$ y $\overline{n_2}\geq 30$ podemos probar la hipótesis nula $p_1 = p_2$ utilizando los mismos criterios que para pruebas de hipótesis para proporciones con muestras grandes , sólo que ahora


$z=\frac{\frac{\overline{x}_1}{n_1}-\frac{\overline{x}_2}{n_2}}{\frac{\overline{x}_1 + \overline{x}_2}{n_1 + n_2}(\frac{1}{n_1}+\frac{1}{n_2})}$

Ilustrare con dos ejemplos la manera de emplear esta expresión en la prueba de diferencias de medias.
a) ¿Fuman más los estudiantes de preparatoria que los del Conalep? Supongamos que de una muestra aleatoria de 80 estudiantes de una escuela preparatoria, 49 de ellos  habían consumido seis o más cigarrillos en la última semana, mientras que de una muestra de 90 estudiantes de un plantel del Conalep, 44 de ellos habían  consumido 6 o más cigarrillos en la última semana. Veamos si con un nivel de significancia de 0.05 es posible afirmar que las proporciones de fumadores en estos planteles son diferentes.

La hipótesis nula es $p_1 =p_2$ y, como estamos interesados en saber si estas proporciones son diferentes, la hipótesis  alternativa es $p_1 \neq p_2 $. La hipotesis nula se rechaza si z <  -1.96 ó z > 1.96, donde
$z=\frac{\frac{\overline{x}_1}{n_1}-\frac{\overline{x}_2}{n_2}}{\frac{\overline{x}_1 + \overline{x}_2}{n_1 + n_2}(\frac{1}{n_1}+\frac{1}{n_2})}=\frac{\frac{49}{80}-\frac{44}{90}}{\frac{49 + 44}{80+90}(\frac{1}{80}+\frac{1}{90})}= \frac{\frac{49}{80}}{\frac{93}{170}(\frac{17}{720})} = 1.09$
Como 1.09 no es mayor que 1.96 no podemos concluir que  los estudiantes de un centro educativo fuman más que los del otro.
b) Un laboratorio desea saber qué tan efectivo en el tratamiento de dolores de aveza resulta duplicar la dosis que usualmente se recomienda. Para ello a un grupo de 60 pacientes con dolor de cabeza se les suministra la doble dosis y a otro grupo con 60 pacientes se les suministra la dosis normal. Si del primer grupo 51 pacientes sintieron una mejoría sustancial y del segundo grupo sólo 34 pacientes la sintieron, ¿Qué podemos concluir del beneficio de duplicar la dosis con un nivel de significancia de 0.05?
La hipótesis nula es $p_1 = p_2$ y, como estamos interesados en saber el efecto de duplicar la dosis, la hipótesis alternativa es $p_1  >  p_2$. La hipótesis nula se rechaza si z > 1.645, donde

$z=\frac{\frac{\overline{x}_1}{n_1}-\frac{\overline{x}_2}{n_2}}{\frac{\overline{x}_1 + \overline{x}_2}{n_1 + n_2}(\frac{1}{n_1}+\frac{1}{n_2})}=\frac{\frac{51}{60}-\frac{34}{60}}{\frac{51 + 34}{60+60}(\frac{1}{60}+\frac{1}{60})}= \frac{\frac{17}{60}}{\frac{85}{120}(\frac{2}{60})} = 1.84$

Como z=1.84 es mayor que 1.645, debemos concluir que con una probabilidad de 0.95 duplicar la dosis mejora la efectividad del analgésico.


No hay comentarios: