Supongamos que una cadena de tiendas desea abrir una
sucursal en un centro comercial. De acuerdo con la administración de este
centro comercial, durante los fines de semana cada visitante gasta en promedio $\$$ 255.00. El gerente de la cadena desea verificar si esta cifra es correcta
antes de aprobar la apertura de la nueva sucursal, y decide realizar una
muestra aleatoria de n = 50 visitantes durante algunos fines de semana con la
intención de aceptar la hipótesis de que
el gasto medio de los visitantes es
efectivamente $\mu$= $\$$ 255.00 si la media de la muestra cae entre $\$$ 235.00 y $\$$ 275.00; y rechazar esta hipótesis si la media de esta muestra resulta ser mayor
que $\$$ 275.00 o menor que $\$$ 235.00.
Si bien este criterio de aceptación o rechazo es claro, no
es infalible. Puesto que la decisión está basada en una muestra, se podrían cometer
dos tipos de error al aplicar el criterio:
a) Existe la posibilidad de que el gasto promedio real de
los visitantes este entre $\$$ 235.00 y $\$$ 275.00, pero que la media de la muestra
sea mayor que $\$$ 275.00 o menor que $\$$ 235.00,
b) Existe la posibilidad de que el gasto promedio real de
los visitantes no caiga dentro del intervalo de $\$$ 235.00 a $\$$ 275.00, pero que la
media de la muestra si caiga en este intervalo.
En el primer caso, al rechazar una hipótesis verdadera,
cometemos un error que llamamos error tipo I; mientras que en el segundo caso,
al aceptar una hipótesis falsa cometemos un
error que se conoce como error tipo II. Al intervalo que eligió el
gerente de la cadena de tiendas de $\$$ 235.00 a $\$$ 275.00 le llamamos región de
aceptación y a los valores menores a $\$$ 235.00 o mayores que $\$$ 275.00 le
llamamos región de rechazo.
Supongamos que el gerente de la cadena de tiendas sabe de
estudios similares que la desviación estándar para gastos en centros
comerciales es de $\$$ 80.00. Investiguemos la probabilidad de que se cometa el
error tipo I, es decir, de que la media de la muestra $\bar{x}$ sea mayor que $\$$ 275.00 o menor que $\$$ 235.00 cuando la $\mu$ es de $\$$255.00 . En este caso, por
el teorema del límite central, sabemos que la distribución muestral de las
medias tiene media $\mu_\bar{x}$= $\mu = 255$ y desviación estándar $\sigma_\bar{x}$=$\frac{
\sigma}{\sqrt[]{n}}=\frac{80}{\sqrt[]{50}} = 11.31$.
En la siguiente figura podemos identificar la probabilidad
de rechazar la hipótesis como el área bajo la curva normal a la izquierda de
235 más el área bajo la curva normal a la derecha de 275.
Para calcular estas áreas por medio de la tabla de áreas
bajo la curva normal debemos expresar estos valores en unidades estándar, y
obtenemos
$z=\frac{x-\mu}{\sigma}=\frac{235-255}{11.31}=-1.77$ y
$z=\frac{x- \mu}{\sigma}=\frac{275-255}{11.31}=1.77$
En la tabla de areas bajo la curva normal podemos entonces
ver que el área bajo la curva normal entre 0 y 1.77 es de 0.46, y como toda el
área a la derecha del 0 es 0.5, el área a la derecha de 1.77 bajo la curva
normal estándar es de 0.5-0.46=0.04. Además, que por simetría, el área entre 0
y -1.77 es también 0.46. Por lo tanto la probabilidad de que la media muestral
$ \bar{x}$ sea mayor que 275 es 0.04 y la probabilidad de que sea menor que 235
es también 0.04, de modo que la probabilidad
de cometer el error tipo I sería de 0.08.
A la hipótesis que deseamos comprobar o rechazar le llamamos
la hipótesis nula. En el caso que acabamos de analizar la hipótesis nula es $\mu$
= $\$$
255.00, y como estamos interesados en probar si esto es verdadero o falso, la
estamos confrontando con la hipótesis alternativa: $\mu$ $\neq$ $\$$
255.00. A este tipo de hipótesis alternativa le llamaremos alternativa
bilateral, ya que la región de rechazo consta de dos segmentos: los valores
menores que $\$$ 235.00 y los valores mayores que $\$$ 275.00.
Hay situaciones donde la región de rechazo consta de un solo segmento, como
puede ser el caso si deseamos saber si cierto tipo de maquina tiene una productividad
media superior 400 piezas por hora, donde
probaríamos la hipótesis nula $\mu = 400 piezas $.en contra de la hipótesis
alternativa $\mu > 400 piezas$, o bien, el caso de cierta
tecnología que permita bajar el nivel de contaminantes emitidos, donde
probaríamos la hipótesis nula de $\mu$ = 4 mg de cianuro por $m^ 3$, en contra
de la hipótesis alternativa $\mu < 4
mg$ de cianuro por $m^ 3$. A este tipo de hipótesis alternativas se les conoce
como alternativas unilaterales. Cuando el interés de una prueba de hipótesis radica
en determinar si la media de la población es mayor (o menor) que cierto valor
la hipótesis alternativa es unilateral.
Hipótesis alternativa: $\mu > \mu_0$
Hipótesis alternativa: $\mu < \mu_0$
Podríamos considerar con razón que el gerente de la cadena
de tiendas estableció los límites para la región de aceptación de manera
arbitraria. Es más usual que la región de aceptación se base en especificar la
probabilidad de cometer el error tipo I. A esta probabilidad le llamamos nivel de
significancia y sus valores más empleados son 0.05 y 0.01. Probar una hipótesis
al nivel de significancia 0.05 significa simplemente que la probabilidad de
rechazar una hipótesis verdadera es 0.05. Observemos que al hacer el nivel de significancia
muy pequeño, es decir la probabilidad de
rechazar una hipótesis verdadera muy pequeña, agrandamos la región de aceptación,
y por lo tanto, aumentamos de la probabilidad de aceptar una hipótesis falsa.
En otras palabras, entre menor sea la probabilidad de cometer un error tipo I,
mayor es la probabilidad de cometer un
error de tipo II.
Una vez que se ha
decidido el nivel de significancia, la prueba de hipótesis $\mu$ = $\mu_0$ consiste en
calcular las regiones de aceptación y rechazo y determinar a cuál de estas
regiones pertenece la media de la
muestra observada por $ \bar{x}$. Este procedimiento puede simplificarse
considerablemente en el caso de que el tamaño de la muestra sea grande (n > 30),
pues es equivalente a pasar la media muestral observada $\bar{x}$ a unidades
estándar por la fórmula
$z = \frac{\bar{x}-
\mu_0}{\frac{\sigma}{\sqrt[]{n}}}$.
Y determinar si este valor se encuentra dentro de los
valores críticos. En la siguiente tabla mostramos los valores críticos para los
niveles de significancia de 0.05 y de 0.01 cuando el tamaño de la muestra es
grande (n > 30).
Ya habíamos empleado los valores críticos bilaterales para
determinar los intervalos de confianza del 95%
y del 99%. En el caso de hipótesis alternativas unilaterales estos valores corresponden al valor de z para
el cual el área a su derecha es 0.05 o 0.01.
Presentamos ahora dos ejemplos donde probaremos hipótesis
sobre medias con tamaño de muestra grande.
a) Un ingeniero de producción de una maquiladora desea
verificar si el tiempo promedio de ensamblado de un circuito es efectivamente
42 segundos, como lo asegura el reporte de otra planta semejante. El ingeniero
realiza una muestra aleatoria de tamaño n=40 y obtiene una media $\bar{x}$ =
44.5 segundos y una desviación estándar de esta muestra s=4.1 segundos. Si el
ingeniero decide basar su decisión en un nivel de significancia de 0.05 ¿debe
aceptar el tiempo promedio de ensamblado de 42 segundos como correcto?
La hipótesis nula es $\mu$ = 42 segundos, y como al
ingeniero le interesa tanto la posibilidad de que $\mu$ > 42 como la de que $\mu$
< 42, la hipótesis alternativa es $\mu \neq 42$ y es bilateral. Como el
nivel de significancia es de 0.05, el
criterio es entonces el de rechazar la hipótesis nula si $\bar{x}$=44.5 cuando
z > 1.96 o z < -1.96, donde
$z = \frac{\bar{x}-
\mu_0}{\frac{\sigma}{\sqrt[]{n}}}$
Como el ingeniero no tiene información extra sobre la
variabilidad del tiempo de ensamblado, debe sustituir s=4.1 como desviación
estándar $\sigma$. Sustituyendo en la expresión de arriba, vemos que
$z = \frac{44.5-
42}{\frac{4.1}{\sqrt[]{40}}}=3.86$
Que resulto mayor que 1.96. La hipótesis $\mu$=42 segundos
debe ser rechazada. Esto es, la diferencia entre 44.5 y 42 es demasiado grande
para ser atribuida al azar, y el ingeniero debe concluir que el tiempo medio de
ensamblado del circuito es diferente de 42 segundos.
b) El gerente de una empresa de reparto de paquetería está
alarmado por el alto consumo de gasolina de sus vehículos y desea determinar si
el consumo medio de gasolina de sus Volkswagen es efectivamente de 12.6 kilómetros
por litro de gasolina. Para ello realiza una muestra aleatoria de 36 Volkswagen
y obtiene una media de $\bar{x}$ = 12.9 km/ l . El gerente sabe que debido a
las diferentes condiciones de los repartos una desviación estándar de $\sigma$
= 0.9 km /l es adecuada. ¿Qué puede concluir si desea tener un nivel de significancia
del 0.01?
La hipótesis nula es $\mu$ = 12.6 km/l, pero como ahora el
gerente está interesado en saber si el rendimiento promedio de sus Volkswagen, es
mayor a 12.6, la hipótesis alternativa
es $\mu$ > 12.6 km /l. Puesto que la
prueba es unilateral y el nivel de confianza es de 0.01, entonces el criterio
es rechazar la hipótesis nula si z > 2.33, donde
$z = \frac{\bar{x}-
\mu_0}{\frac{\sigma}{\sqrt[]{n}}}
=\frac{12.9-12.6}{\frac{0.9}{\sqrt[]{36}}} =2$
Como 2 no es mayor que 2.33 la hipótesis nula no puede ser
rechazada. En otras palabras, la diferencia entre $\bar{x}$= 12.9 y $\mu $
=12.6 es tan pequeña que se puede deber al azar.
Las pruebas de hipótesis cuando el tamaño de la muestra es
pequeño, n < 30, y la forma de distribución de la población es acampanada se realizan
prácticamente como en el caso de muestras grandes, sólo que ahora se verifica
si el valor de t es dado por
$t=\frac{\bar{x}- \mu_o}{\frac{s}{\sqrt[]{n}}}$
Se encuentra dentro de los valores críticos dados por latabla de valores de t.Al igual que con los intervalos de confianza, para pruebas
de hipótesis bilaterales con nivel de
significancia $\alpha$ consideramos la columna correspondiente a $\alpha/2$;
mientras que para pruebas unilaterales con nivel de significancia $\alpha$
consideramos la columna correspondiente a $\alpha$
A continuación se analizan dos casos de pruebas de hipótesis para medias con tamaño de la
muestra pequeño.
a) El gerente de compras de una tienda de autoservicio
analiza la cantidad de azúcar de un lote de naranjas procedentes de Veracruz
para determinar su precio de venta. De acuerdo con el productor, el contenido
de azúcar de las frutas es en promedio 12.5%. El gerente envía a analizar una
muestra aleatoria de n=20 naranjas y los resultados del laboratorio arrojan una
media en $ \bar{x}$=11.9 % de azúcar y una desviación estándar s =0.9%. ¿Debe
el gerente aceptar la afirmación del productor
de que el promedio de azúcar es del 12.5% si el nivel de significancia
es 0.05?
La hipótesis nula es $\mu$ =12.5%, y como el gerente tiene
interés en saber si $ \mu$ es mayor al 12.5 % o si es menor al 12.5%, la hipótesis
alternativa es $ \mu \neq 12.5$%. Se
tienen 20-1 = 19 grados de libertad, y como se trata de una prueba bilateral,
debemos buscar en la columna correspondiente a 0.05/2 = 0.025. El valor de t es
2.093. La hipótesis debe rechazarse si t > 2.093 o si t < -2.093. Como
$t=\frac{\bar{x}- \mu_o}{\frac{s}{\sqrt[]{n}}}=\frac{11.9-12.5}{\frac{0.9}{\sqrt[]{20}}}=-2.98$
Entonces t < - 2.093 (ya que -2.98 se encuentra a la
izquierda de -2.093 en la recta real) y por lo tanto se debe rechazar la hipótesis,
puesto que la diferencia en el porcentaje de azúcar entre 12.5 y 11.9 es muy
grande para deberse a la variabilidad de las diferentes muestras.
b)Un narcotraficante recibe un cargamento de cocaína
empacada en sobres de 2 mg y debe pagar por el cargamento o rechazarlo si el
contenido de los sobres no es el especificado. Como no tiene tiempo de analizar
el peso de todos los sobres, realiza una muestra aleatoria de n =10 sobres.
Después de pesarlos obtiene una media $\bar{x}$=1.97
mg y una desviación estándar de los pesos de los sobres s=0.04 mg. ¿Debe el
narcotraficante aceptar o rechazar el pedido si el nivel de significancia es
0.01?
La hipótesis nula es $ \mu$= 2 mg, y como el narcotraficante está interesado en
saber si el peso medio de los sobres es menor que 2 mg, la hipótesis
alternativa es $\mu$ < 2. Se tienen 10-1 = 9 grados de libertad, y como se
trata de una prueba unilateral, debemos buscar en la columna correspondiente a
0.01. El valor de t es 2.821. La hipótesis debe rechazarse si t <-2.821,
donde
$t=\frac{\bar{x}- \mu_o}{\frac{s}{\sqrt[]{n}}}=
\frac{1.97-2}{\frac{0.04}{\sqrt[]{10}}}=-2.37$
Si colocamos en la recta real los números -2.821 y -2.37,
entonces -2.821 aparece a la izquierda de -2.37, esto es, -2.37 es mayor que
-2.821. Como -2.37 no es menor que -2.821, el narcotraficante debe aceptar la hipótesis
de que el peso promedio de las bolsas de cocaína es 2 mg; esto es, la
diferencia entre 2 y 1.97 mg se puede deber a la variabilidad de los pesos
medios de las diferentes muestras. Por tanto, el narcotraficante debe aceptar
el pedido.
1 comentario:
Me podrian decir de que libro es porfavor. C: Gracias
Publicar un comentario