sábado, 22 de septiembre de 2012

Intervalos de confianza para proporciones


En la estimación de proporciones usualmente se dispone de una proporción muestral $\frac{\bar{x}}{n}$, donde $\bar{x}$ es el número de veces que un evento ha sucedido en n ensayos. Por ejemplo su 34 de 180 entrevistados aleatoriamente gastaron más de $\$$ 200.00 , entonces $\frac{\bar{x}}{n} = \frac{36}{180} = 0.189$ es una estimación de la proporción de visitantes del centro comercial que gastan más de $\$$ 200.00. Como un porcentaje es una proporción multiplicada por 100, y una probabilidad puede interpretarse como una proporción en el largo plazo, también  podríamos decir que estimamos que el 18,9 $\%$ de los visitantes del centro comercial gastan más de $\$$ 200.00 o que la probabilidad de que un visitante del centro comercial gaste más de $\$$ 200.00 es de 0.189. Por lo tanto, en cierto modo las estimaciones de proporciones, porcentajes y probabilidades son esencialmente iguales, Si suponemos además que las situaciones que estudiamos satisfacen las condiciones de una distribución binomial, esto es, nuestra información  consiste en el número $\bar{x}$ de ensayos independientes y la probabilidad  de éxito de cada uno de los ensayos tiene un valor constante p, la variable aleatoria $\bar{x}$   resulta binomial. Cuando el tamaño de la muestra es grande ($n \geq 30$) sabemos que esta distribución binomial es aproximadamente normal, con media $\mu = np$ y con desviación estándar $  \sigma = \sqrt[]{np (1-p)}$. Entonces , la variable
$z=\frac{\bar{x}-np}{\sqrt[]{np (1-p)}}$
Tiene prácticamente una distribución normal estándar. Sabemos, por ejemplo, que la probabilidad de que z se encuentre entre -1.96 y 1.96 es 0.95; esto es, la probabilidad de que

$-1.96=\frac{\bar{x}-np}{\sqrt[]{np (1-p)}} < 1.96 $

Es 0.95. Procediendo como en la sección 6.1, se puede ver que esta desigualdad se cumple cuando
$\frac{\bar{x}}{n} -1.96 \sqrt[]{\frac{p(1-p)}{n}} < p < \frac{\bar{x}}{n} + 1.96 \sqrt[]{\frac{p(1-p)}{n}}$
Desafortunadamente, no podemos emplear esta expresión para obtener un intervalo de confianza para p, ya que la variable p aparece también de lado izquierdo y derecho de la igualdad. Una alternativa razonable consiste en sustituir
$\sqrt[]{\frac{p(1-p)}{n}}$
Por
$\sqrt[]{\frac{\frac{\bar{x}}{n}(1-\frac{\bar{x}}{n})}{n}}=\sqrt[]{\frac{\frac{\bar{x}}{n}(\frac{n-\bar{x}}{n})}{n}}=\sqrt[]{\frac{\bar{x}(n-\bar{x})}{n^3}}=\frac{1}{n}\sqrt[]{\frac{\bar{x}(n-\bar{x})}{n}}$

Para llegar a la siguiente expresión para los intervalos de confianza de 95 $\%$


$\frac{\bar{x}}{n}-\frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}} < p < \frac{\bar{x}}{n}+ \frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Para la estimación de intervalos de confianza de 99$\%$ para p simplemente sustituimos el valor 1.96 por 2.575 para obtener
Intervalos de confianza de 99$\%$
$\frac{\bar{x}}{n}-\frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}} < p < \frac{\bar{x}}{n}+ \frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Supongamos que al realizar una encuesta a 360 ciudadanos de un municipio, 136 de ellos afirman que tienen la intención de votar por cierto candidato a la presidencia municipal. Para obtener el intervalo de confianza del 95% para la proporción verdadera de ciudadanos que pretendan votar por este candidato, vemos que al sustituir los valores $\overline{x}$ = 136  y n=360 en
$\frac{\bar{x}}{n}-\frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}} < p < \frac{\bar{x}}{n}+ \frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Se tiene
$\frac{{136}}{360}-\frac{1.96}{360}\sqrt[]{\frac{{360}(360-136)}{360}} < p < \frac{{136}}{360} + \frac{1.96}{360}\sqrt[]{\frac{{360}(360-136)}{360}}$
Que es
0.328 < p < 0.428
Esto significa que con un grado de confianza de 95 $\%$ , la proporción de todos los ciudadanos que piensan votar por este candidato se encuentra entre  0.328 y 0.428. Equivalentemente podemos, afirmar que con probabilidad 0.95, entre el 32.8 % y el 42.8 % de los ciudadanos piensa votar por este candidato.
Para construir el intervalo de confianza de 99% procedemos análogamente, simplemente  cambiando el factor 1.96 por 2.575:
$\frac{{136}}{360}-\frac{2.575}{360}\sqrt[]{\frac{{360}(360-136)}{360}} < p < \frac{{136}}{360} + \frac{2.575}{360}\sqrt[]{\frac{{360}(360-136)}{360}}$
Que da
0.12 <  p  <  0.444.
De nuevo, entre mayor sea el grado de confianza más grande resulta el intervalo.
Como los intervalos de confianza se construyen sumando y restando los facotres
$\frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$ o  $\frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Al centro $\frac{\bar{x}}{n}$ , estos factores representan el error máximo asociada a la estimación de la proporción. Por ejemplo, si en una encuesta telefónica a 400 hogares que tenían la televisión encendida, 118 de ellos veían cierta telenovela, entonces podemos tomar a $\frac{\bar{x}}{n}=\frac{118}{400}=0.295$ como nuestra estimación de la proporción de televidentes que ven esta telenovela. Entonces, con un grado  de confianza del 99%, el error en nuestra estimación es menor que
$\frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}=\frac{2.575}{400}\sqrt[]{\frac{118(400-118)}{400}}=0.059$
Que representa un error menor al 5.9 $\%$.

No hay comentarios: