lunes, 26 de marzo de 2012

Medidas de dispersión

En este post buscaremos complementar la información importante que brindan las medidas de tendencia central acerca de un conjunto de datos. Supongamos que tenemos dos pacientes sometidos a un tratamiento para regularizar su presión arterial en un hospital. La enfermera entrega al médico los siguientes reportes de su presión sistólica (máxima) durante las últimas 24 horas
La media en ambos casos es de 117 Mg Hg, que es aceptable para la edad de los pacientes. Sin embargo, el médico difícilmente encontrará satisfactorio el tratamiento del paciente B. ¿Por qué? Es claro que la forma en que se distribuyen las presiones arteriales de los dos pacientes es muy diferente, ya que en el primer caso la variabilidad es muy pequeña, mientras que en el segundo es muy alta.
Un aspecto que salta a la vista es la diferencia de rangos en el ejemplo anterior. El rango o amplitud de un conjunto de datos numéricos es simplemente la diferencia entre el dato mayor y el menor. Para el paciente A el rango está dado por 124-110= 14, y para el paciente B obtenemos el rango mucho más amplio, pues 157-79=78.
El rango es una medida que se entiende y calcula fácilmente, pero no es muy útil como medida de dispersión. Para ilustrar esto consideremos los siguientes conjuntos de datos.

A pesar de que cada uno de estos tres conjuntos tiene una media de 10 y un rango también de 10, su variabilidad es muy diferente; es más pronunciada en el primer caso y menor en el último. Esto se debe a que en el primer conjunto los datos se encuentran alejados de la media ,mientras que en el tercer conjunto, la mayoría de los datos están distribuidos muy cerca de la media.
Consideremos una población con datos x1 , x2, x3,…, xN.Si la media de la población es μ, entonces las diferencias x1 - μ, x2 - μ, x3 - μ,…, xN - μ, son las desviaciones de la media. ¿Es razonable tomar a la media de estas desviaciones como medida de variabilidad? Aunque a primera vista parece correcto, observemos que como la media se encuentra aproximadamente al centro de los datos, estas diferencias serán positivas para aquellos datos xi que sean mayores a la media y negativos para aquellos que sean menores, de modo que al sumar las desviaciones de la media habrá muchas cancelaciones. De hecho, no es difícil comprobar que la suma de las desviaciones de la media, y en consecuencia su media, es siempre cero.

Sin embargo, si elevamos al cuadrado las diferencias de las medias, éstas serán siempre positivas, a excepción del caso de que el dato xi coincida con la media, esto es cuando xi - μ es cero. Si tomamos la media de estos cuadrados y sacamos su raíz cuadrada (para compensar que las desviaciones fueron elevadas al cuadrado) obtenemos la desviación estándar de la población que se denota por la letra griega σ (sigma).
Parecería natural definir la desviación estándar de una muestra sustituyendo
x
por μ y n por N, pero no es así. En lugar de dividir por n, el tamaño de la muestra se divide por n-1.

Su cuadrado s2, es la varianza de la muestra. El hecho de dividir por n-1 en lugar de dividir por n no es arbitrario. La razón teórica es que si dividiesmos por n y usásemos s para aproximar σ, nuestra aproximación resultaría pequeña, y esto lo arreglamos dividiendo por n-1. Cuando n es grande, la diferencia entre dividir por n-1 o por n resulta en realidad insignificante.

Para calcular la desviación estándar debemos (1) determinar la media
x
, (2) las diferencias de las medias, (3) elevar al cuadrado estas diferencias, (4) sumar los cuadrados, (5) dividir por n-1, y finalmente (6)sacar la raíz cuadrada. Calculemos la desviación estándar de las presiones de los pacientes .Debemos primero decidir cuál de las dos expresiones usar, es decir, si se trata de muestras o de poblaciones.
Es claro que las lecturas que tenemos de los pacientes corresponden a un pequeño registro de sólo seis reportes que tomó la enfermera. Si el médico lo hubiese indicado se podría haber llevado un registro más frecuente de las presiones de los pacientes. Por tanto corresponde a la expresión para una muestra.

La media en ambos casos era de 117. Los primeros cuatro pasos para calcular la desviación estándar se encuentran en la siguiente tabla.
Observemos  que las sumas de las desviaciones de la media son efectivamente cero, como ya lo habíamos señalado anteriormente. Las desviaciones estándar para los pacientes A y B son entonces

El hecho de que la desviación del paciente B sea considerablemente mayor refleja que sus presiones sistólicas se encuentran más alejadas de la media.
El procedimiento arriba señalado para calcular desviaciones estándar puede abreviarse un poco.
El procedimiento arriba señalado para calcular desviaciones estándar puede abreviarse un poco.
Observemos que

Entonces,
Y por lo tanto, la desviación estándar de la media también la podemos obtener por la siguiente expresión
De manera análoga la siguiente fórmula nos permite obtener la desviación estándar de la población.



Tal vez te podrían confundir las expresiones ∑ x2 y (∑x)2 . En ∑ x2 primero elevamos al cuadrado y luego sumamos, y en (∑x)2 primero sumamos y luego elevamos al cuadrado. Estas fórmulas nos permiten calcular más rápidamente la desviación estándar. La ventaja de esta fórmula sobre nuestra expresión original radica en que no es necesario calcular cada una de las diferencias de la media xi -
x.

Para ilustrar el empleo de esta nueva expresión calcularemos de nuevo las desviaciones estándar de las presiones de los pacientes A y B.
La desviación estándar de la muestra de las presiones del paciente A es
Y  la del paciente B es
Y  la del paciente B es

La importancia de la desviación estándar no sólo radica en el hecho de que nos da información de cómo se distribuyen los datos de un conjunto alrededor de su media, sino que además es muy útil en problemas de inferencia que trataremos más adelante.
El siguiente resultado, conocido como el teorema de Chebishev, en honor del matemático ruso Pafnuti Shevishev (1821-1894), nos indica con mayor precisión cómo la desviación estándar refleja la manera en que los datos de distribuyen alrededor de la media .

¿Qué significa este teorema? Por ejemplo, si k=2, al menos 1-1/22= 1- ¼ = ¾  o  75% de los datos deben estar a lo más a 2 desviaciones estándarde la media;para k=3, al menos 1-1/32= 1-1/9 = 8/9 o 88.9% de los datos deben estar a lo más a 3 desviaciones estándar de la media, etc.

Veamos cómo podemos aplicar este resultado a las calificaciones del examen de física que estudiamos en un post anterior. Para calcular la desviación estándar calcularemos usaremos la expresión

,ya que se trata ahora de todas las calificaciones del examen, es decir, la poclación. En este caso N=30,
(∑x) 2, =(3.9+4.6+…+10)2, =(218.7)2, =47829.69 ,
∑x2, = (3.9) 2, + (4.6)2, +…+(10)2, =1665.55.
Por lo tanto,
La media de este conjunto de calificaciones es de 7.29. El teorema de Chevishev asegura que, por ejemplo, para k=1.5, entonces 1-1/1.5 =0.552, por lo que cuando menos el 55% de las califciaones son mayores a 7.29-  (1.5)(1.54)= 4.98 y son menores que 7.29 + (1.5)(1.54)=9.6.

Es muy útil que el valor de la constante k del teorema de Chevishev sea arbitrario. Consideremos por ejemplo una empresa papelera que vende paquetes de hojas para fotocopiado. Los paquetes tienen una media de 500 hojas con una desviación estándar de 0.6. ¿Cuál es el mínimo porcentaje de paquetes que contienen entre 498 y 502 hojas? En este caso estamos permitiendo que haya una variación de 2 hojas por paquete. Al expresar esta variación en términos de desviaciones estándar tenemos la ecuación 2= .6k, y al resolverla tenemos que k= 3.33. Como 1- 1/3.332=0.91, el teorema de Chevishev nos gaantiza entonces que cuando menos el 91]% de los paquetes contiene entre 498 y 502 hojas.

 El teorema de Chevishev se aplica a cualquier conjunto de datos y nos dice que cuando menos un porcentaje de ellos se encuentra entre ciertos límites. En el caso del ejemplo anterior sabemos que al menos 91% de los paquetes contiene entre 498 y 502 hojas , pero podría haber un porcentaje mayor dentro de estos límites.
En el caso del examen de física sabemos que al menos 55 % de las calificaciones están entre 4.98 y 9.6 y, de hecho, este porcentaje es mucho mayor, ya que únicamente 4 calificaciones no caen en este rango, lo que equivale al 13.33 %. Más adelante  estudiaremos  distribuciones muy comunes de forma de campana donde se tiene mucha más información sobre la variabilidad de datos.
Ya hemos determinado fórmulas para obtener la media y desviación estándar de un conjunto de datos. ¿Es posible determinar la media, la mediana y la desviación estándar cuando los datos que tenemos ya vienen agrupados? Esto sucede con mucha frecuencia en los datos que se publican por el INEGI o por algún otro organismo o empresa.
Ya mencionamos que al agrupar datos se pierde información y por lo tanto debemos conformarnos con una aproximación de la media, mediana y desviación estándar. Para calcular estos parámetros se asigna a cada dato el valor de su marca de clase correspondiente. Así, si se tienen k clases y si denotamos por xi al valor de las marcas de clase i y por fi a su frecuencia, entonces debemos contabilizar f1 veces a x1, f2 veces a x2, etc. Entonces el total de datos es n= f1 + f2 +…+ fk y la media de una muestra está dada entonces por
La suma de los cuadrados de los datos es x12 ∙ f1 + x22 ∙ f2+…+ xk2 ∙ fk= ∑ x2 ∙f y podemos calcular la desviación estándar de la muestra mediante la expresión

Las fórmulas para la media y la desviación estándar de una población vienen dadas por
Veamos cómo aplicar estas fórmulas para obtener la media y la desviación estándar a partir de datos agrupados por el histograma de las calificaciones del examen de física que revisamos en un post anterior.

La siguiente tabla contiene los cálculos necesarios para poder aplicar las fórmulas de arriba. Veamos cómo obtuvimos los datos del tercer renglón. El tercer renglón corresponde a los exámenes que obtuvieron calificación 6, que es precisamente el valor de la marca de clase x.
En la segunda columna aparece x2 = 62, =36, en la tercer columa la frecuencia f=5 , que es el número de alumnos que obtuvieron calificación 6, en la cuarta y quinta columna aparecen los productos x ∙f = 6∙5=30 y x2, ∙f=36 ∙5 =180.Los otros renglones se calculan de la misma manera.

La media es entonces
Y la desviación estándar es
Recordemos que los valores de estos parámetros calculados a partir de los datos originales (antes de ser agrupados) es de 7.29 y 1.54. La diferencia con respecto a los valores que acabamos de obtener se conoce como error por agrupamiento. En el caso del examen de física el error por agrupamiento resultó prácticamente imperceptible para la desviación estándar.
 Una vez que han sido agrupados los datos tampoco es posible determinar el valor exacto de la mediana. Sabemos que, después de ordenar los datos, la mediana es el valor del dato que divide en dos conjuntos de igual tamaño a todos los datos. Cuando los intervalos de clases son iguales, la mediana se puede determinar como el número que divide el área total del histograma en dos partes iguales, una a la izquierda y otra a la derecha.
 En el histograma del examen de física las bases de los rectángulos son siempre iguales a 1 , aspi que el área total de los rectángulos es de 30. La suma de las áreas de los primeros cuatro rectángulos es de 15, de modo que la mediana es el valor divisorio de esta clase, que es de 7.5. Este valor coincide en este caso con el valor real de la mediana antes de agrupar los datos. Analicemos ahora un ejemplo un poco más elaborado desde el punto de vista computacional, es decir, donde el número de operaciones y la magnitud de los números es mucho mayor.
Consideremos de nuevo los matrimonios en México durante 1995. En la tabla de los matrimonios apreciamos dos clases abiertas, la clase de los matrimonios donde la contrayente tiene menos de 15 años y la clase donde la contrayente tiene más de 50 maños. Ambas clases son pequeñas en relación con el total de matrimonios, pues cada una contiene menos del 1.5% . Para clases abiertas no tenemos una forma precisa de determinar sus marcas de clase y esto dificulta los cálculos. En este cosa, con la información que contamos, trataremos de asignar de manera razonable una marca de clase para cada una de estas dos clases. Para la primera es más sencillo, puesto que la mayoría de las contrayentes menores de 15 años deben de contar con 14 años, asignando a esta clase la marca 14. Para la última clase la situación es más complicada. Ya que el número de matrimonios baja considerablemente al aumentar la edad de la contrayente, podemos suponer que esta situación se repite dentro de la última clase, es decir, que hubo más contrayentes cercanas a los 50 años que arriba de 70 años.


Así, de manera un poco arbitraria asignemos 60 como marca de la última clase. Ya habíamos observado que los valores divisorios a partir de la segunda clase son 15, 20,25,,,etc.

Las marcas de clase son entonces (15+20)/2 =17.5, (20+25)/2=22.5, etc.

En la siguiente tabla se han calculado los valores de x∙f y de x2 ∙f. Por ejemplo, para el primer vrenglón la clase de marca es x = 14, x2 = 142 = 196, la frecuencia es f = 9136, x ∙f =(14) (9136) y x2 ∙f = (196) (9136)= 1 790 656 .Los otro srenglones se obtienen de manera totalmente análoga.
La media en entonces
 
que corresponde a la edad promedio de una contrayente durante 1995. La desviación estándar es 
Para calcular la mediana debemos localizar la edad de la contrayente 658114/2 =329057. Sabemos que 9136+213773=222909 matrimonios donde la contrayente cuenta con 19 años o menos y que hay 222 909 +245 537 = 468 446 matrimonios donde la contrayente cuenta con 24 años o menos. Se tiene entonces que la mediana se localiza en la tercera clase, de 20 a 24 años cumplidos. El valor divisorio inferior de esta clase es 20, el intervalo de la clase es 5 y la frecuencia de la clase es 245 537. El número de datos faltantes dentro de la clase para alcanzar la mediana es la diferencia de la mitad total de los datos menos los datos acumulados hasta la clase anterior, esto es , 329 057-222 909= 106 148 . La proporción de matrimonios de la tercera clase antes de la mediana es entonces de 106148/245537=0.433. Por lo tanto la mediana es


20+5∙ 0.433 =22.165.

En general, si el valor divisorio inferior de la clase de la mediana es L, el intervalo de la clase es c, la frecuencia de la clase es f y el número de datos faltantes dentro de la clase de la mediana r, la mediana viene dada por


Como 22.165 años es aproximadamente 22 años y dos meses, sabemos entonces que en la mitad de los matrimonios en México durante 1995 la contrayente  tenía menos de 22 años y dos meses, y en la otra mitad la contrayente era mayor.

Para calcular los cuartiles podemos también utilizar la expresión de arriba, sólo que ahora hay que determinar dónde se tiene el 25% y el 75% de los datos. Debemos entonces estimar la edad de las 658114/4 =164528.5 y 3(658114/4) = 493585.5 contrayentes más jóvenes. Como sólo se trata de una aproximación no es necesario considerar números enteros o la media de los números enteros anterior  y posterior.

Calculemos primero el cuartil inferior. Las dos primeras clases contienen 9136 +213773= 222909datos. Como 9136 <164528.5<222909 sabemos que el cuartil inferior se localiza en la segunda clase. La segunda clase contiene 164528.5-9136 = 153392.5 datos antes del cuartil inferior, así que el cuartil inferior está dado por

Observemos que para este caso el valor divisorio de la segunda clase es L= 15 y el intervalo vuelce a ser c=5.


El cálculo del cuartil superior es totalmente análogo. Las tres primeras clases contienen 468446 datos y las cuatro primeras clases contienen 579209 datos, por lo que el dato 493585.5 está en la clase de los matrimonios de 25 a 29 años de edad de la contrayente. Los datos faltantes son ahora 493585.5-468446=25139.5 . Aplicando la fórmula otra vez obtenemos que el cuartil superior es
Los cuartiles son 18.635 y 26.135, que equivalen aproximadamente a 18 años 7 meses y a 26 años 2 meses. Esto significa que en un cuarto de los matrimonios de México en 1995 las contrayentes tenían menos de 18 años 7 meses y que los matrimonios con contrayentes mayores de 26 años 2 meses corresponden a la cuarta parte del total de matrimonios.

Ya observamos que cuando los intervalos de las clases son iguales, se puede obtener la mediana dividiendo el histograma en dos partes con áreas iguales. La base de los rectángulos es igual a 5, a excepción de la primera y la última clase que son abiertas. Para determinar la mediana en este caso debemos eliminar estas dos clases abiertas. El efecto de eliminar estas dos clases en la localización de la mediana es muy pequeño, ya que por un lado son pequeñas, y por otro, al ser semejantes en magnitud estamos eliminado aproximadamente el mismo número de matrimonios en el extremo izquierdo que en el extremo derecho. El siguiente histograma es relevante para determinar la mediana.

Matrimonios en 1995 por edad de la contrayente
Como todos los rectángulos tienen base 5, el área total de los rectángulos es igual a 5 veces el total de matrimonios con contrayente entre los 15 y 49 años cumplidos que es de 5 ∙ 639566 =3197830. La mitad del área es de 1598915. El primer  rectángulo tiene área 5 ∙ 213773=1068865 y el área del segundo es de 5 x 245 537 = 1227685. Como el área de los dos primeros rectángulos sobrepasa la mitad  del área total, la mediana se encuentra en la segunda clase. ¿Qué tanto le falta al área del primer rectángulo para alcanzar la mitad del área total? Esta área faltante es de 1598915-1068865=530050. La proporción del segundo rectángulo que constituye el área faltante es igual a

Por lo que el valor de la mediana es igual al valor divisorio inferior de la segunda clase más 0.432 veces el intervalo de la clase, esto es, 20 + (0.432)(5)=22.16 años, que ya observamos equivale a un poco menos de 22 años y dos meses.
En general, podemos encontrar la mediana de una distribución determinando primero la clase en la que se localiza. Si L es el valor divisorio de esta clase, c el intervalo de la clase, Ac el área de la clase y Af el área faltante, entonces la mediana está dada por

Las dificultades que tuvimos con las clases abiertas para aproximar la media y la mediana ilustran la razón de que  preferentemente estas clases tengan frecuencias pequeñas en relación con el resto de las clases.

domingo, 11 de marzo de 2012

0024.2 Medidas de tendencia central.

Supongamos que trabajamos en una fábrica de mangueras y que para poder competir en el mercado internacional es necesario que las mangueras satisfagan ciertas características técnicas. Si las pruebas a que debemos someter las mangueras son tan rigurosas y exigentes que al probar las mangueras estas se echan a perder, ¿cómo podemos garantizar a nuestros clientes la calidad de nuestro producto? Es claro que si decidimos probar toda la producción conoceríamos con exactitud la calidad de las mangueras, pero no tendríamos productos para vender. Una alternativa razonable consiste en probar tan sólo algunas de las mangueras, de tal forma que el costo del estudio de calidad no sea excesivo, pero que a la vez podamos saber que si el resto de la producción tiene la misma calidad, nuestro producto satisface o no satisface las características técnicas requeridas.

Los resultados técnicos que obtendríamos al someter algunas mangueras a estas pruebas rigurosas nos permiten determinar con certeza las características técnicas de sólo una parte del total de mangueras. Es conveniente entonces tener claro si los datos que estamos analizando corresponden al total de las observaciones, que es llamado la población, o a una parte de ellas, llamada muestra. Existen muchas situaciones donde la recopilación y el análisis de los datos se efectúan sobre una muestra y no sobre toda la población. Un ejemplo común donde los datos que obtenemos corresponden a unas muestras son las encuestas de intención de voto antes de una elección, donde sería muy costoso preguntar a cada uno de los electores por qué partido o candidato piensa votar. De hecho, en este caso no es posible conocer con precisión la población, que consiste de aquellos ciudadanos que efectivamente ejercen su voto el día de la elección.

Debido a que es muy importante distinguir en un problema estadístico si los datos corresponden a una muestra o a la población completa, veamos otro par de ejemplos que ilustren esta diferencia.

1.-Un laboratorio médico prueba un analgésico en 100 pacientes que sufren de migrañas. La muestra en este caso consiste de los 100 pacientes sometidos al tratamiento, mientras que la población estará constituida por todas aquellas personas que padezcan de migrañas y se sometan al mismo tratamiento con este analgésico.

2.-Una empresa de publicidad conoce los costos de producción de ocho comerciales para televisión. ¿Se trata de una muestra o de la población? La respuesta depende del uso que hagamos con estos datos. Si los datos los empleará el contador de la empresa para determinar el pago de los impuestos correspondientes a los ingresos por los ocho comerciales, entonces se trata de la población. Si los costos de estos comerciales se emplearán para estimar costos de comerciales que se hagan a futuro, entonces se trata de una muestra.

Cuando afirmamos que los sonorenses son más altos que los veracruzanos nos encontramos con que habrá sonorenses más altos que algunos veracruzanos pero también hay veracruzanos más altos que algunos sonorenses ¿Entonces tiene sentido una afirmación de este tipo?

Existe una medida que asociamos a un conjunto de datos y nos permite responder a las preguntas arriba planteadas, que es la media. La media de un conjunto de datos es lo que comúnmente llamamos el promedio, pero como la palabra promedio tiene otros significados, los estadísticos prefieren emplear la palabra media. La media de n números es simplemente su suma dividida por n.

En el caso de las califcaciones del examen de física la media es

La media de un conjunto de datos es fácil de calcular cuando el número de datos no es excesivo, pero afortunadamente con la ayuda de una hoja de cálculo es muy sencillo obtener la media, aun cuando el tamaño de la muestra o población sea grande. Debido a que tendremos que calcular la media de muchas clases de datos, es conveniente tener una fórmula que siempre podamos aplicar. Si representamos a los datos por variables digamos x 1, x2, x3,...xn, entonces el tamaño de la muestra es n. La media es entonces
Esta fórmula puede ser aplicada a cualquier conjunto de datos, y se abreviada un poco si utilizamos el símbolo
x
(que leemos "equis barra") para designar a la media de una muestra, y si además utilizamos el símbolo ∑ para describir la suma de una serie de datos, la expresión anterior queda así.
Donde ∑ x = x1 + x2 + x3 +...+ xn. Si se desea hacer explicícito el número de sumandos de la muestra, entonces se emplea el símbolo
La media de una población se define de la misma manera, pero se emplean símbolos diferentes: la letra griega μ (mu) para la media de la población y N para el tamaño de la población, de modo que

¿Son efectivamente más altos los sonorenses que los veracruzanos? Una manera de responder a esta pregunra consistiría en calcular la media de la altura de los sonorenses y después la media de las alturas de los veracruzanos y comparar estas medias.

La media es sin duda la medida de mayor uso para representar el medio o el centro de un conjunto de datos. Akgunas de las propiedades de la media son las siguientes:

1.-Puede ser siempre calculada para cualquier conjunto de datos numéricos.
2.-Cualquier conjunto de datos numéricos tienen una y sólo una media.
 3.-Puede ser empleada para un análisis estadístico posterior, como por ejemplo, las medios de vrios conjutos de datos pueden ser  (según sea el caso) combinadas para obtener la media de todos los datos.
4.-Es una muestra confiable en el sentido de que las medias de varias muestras de una población generalmente no difieren mucho.
5.-La media es sensible a valores extremos.

Para ilustrar la úlima propiedad de la media, la sensibilidad a los valores extremos, consideremos las edades a las que murieron los miembros de dos familias. Digamos que cada una de estas familias tiene nueve miembros y las edades a las que murieron son :

En cierta medida, los Pilongano y los Gómez son igualmente longevos. Las diferencias entre las dos familias están en los extremos, pues por un lado la bisabuela doña Gamucita Pilongano vivió hasta los 106 años de edad, mientras que los Gómez perdieron a un bebe de un año de edad. Como consecuencia de esto las medias de los años de vida de cada familia son diferentes.
Para evitar que algunos valores muy pequeños o muy grandes alteren el "centro " o la "mitad" de un conjunto de datos en ocasiones es preferible emplear otras medidas diferentes de la media. Una de estas medidas es la mediana, que se obtiene ordenando los datos y escogiendo el valor que está en medio, o la media de los dos valores centrales.


y en ambos casos 74 constituye la mediana de los años de vida de ambas familias.
Veamos ahora un ejemplo con un número par de datos. Si durante los diez partidos de un torneo de futbol un equipo anotó 3,2,0,3,2,1,1,4,7 y 3 goles ¿cuál es la mediana? Al ordenar los valores se tiene
0 1 1 2 2 3 3 3 4 7
y los valores centrales son 2 y 3, que ocupan los lugares 5 y 6 de la lista de 10 valores.
La mediana es entonces (2+3)/2 =2.5



Puesto que la mediana es el valor del dato central,tenemos que :
cuando n es par el conjunto de datos con valores menores a la mediana constituye el 50% de los datos, mientras que el conjunto de datos con valores mayores a la mediana constituye el otro 50%
 y cuando n es impar  el conjunto de datos  con valores menores o iguales a la mediana  constituirá el 50%  y los datos con valores mayores el otro 50% o bien puede también ser que  el conjunto de datos  con valores menores a la mediana  constituirá el 50%  y los datos con valores iguales o  mayores
a la mediana constituirán el otro 50%.
Cuando analizamos grandes cantidades de datos en ocasiones resulta  también interesante conocer el valor de los datos que determinan el primer 25 % de los datos y el 75% de los datos . A estos valores se les conoce como el cuartil inferior y el cuartil superior. Si  se tienen d datos, entonces el cuartil inferior es el valor del dato correspondiente al entero más cercano a n/4  y el cuartil superior es el valor del dato correspondiente al entero más cercano a 3n/4. Por ejemplo, si se tienen 739 datos, 739/4 =184.75, y el cuartil inferior estará dado  por el valor del dato 185, mientras que el cuartil superior es el dato 554, ya que (3  x  739)/4 = 554.25. En el caso en que en alguna de las fracciones n/4 o 3n /4 esté a la mitad entre dos números enteros, podemos tomar la media de estos datos como el correspondiente cuartil.
Por ejemplo, para calcular la mediana del examen de física debemos primero escribir las 30 calificaciones por orden ascendente; 3.9, 4.6 ,4.8,  5.2 ,5.5 ,5.8 ,5.9 ,6.1 ,6.3 ,6.6, 6.7 ,6.9,7.4, 7.4, 7.5 ,7.5, 7.6,7.8,7.9 , 8 ,8.1 8.3 ,8.5 ,8.8, 8.9 ,8.9 ,9 ,9.2 9.6,10. Los lugares 15 y 16 corresponden a kas calificaciones 7.5 y 7.5 , por lo que la mediana es 7.5. Como 30/4 = 7.5, para obtener el cuartil inferior calculamos la media de los datos 7 y 8: (5.9+6.1)/2 =6 . El último cuartil es la media de los datos 22 y 23: (8.3+8.5)/2 = 8.4. Sabemos entonces que la mitas de las calificaciones fueron inferiores o iguales a 7.5 y la otra mitad superiores o iguales a 7.5, y que además el 25% más bajo de las calificaciones fue superior o igual a 8.4.

Otra medida que se usa a veces para describir la "mitad " o la tendencia central de un conjunto de datos es la moda. Se define simplemente como el valor del dato que aparece con más frecuencia . 

La moda también se puede definir para distribuciones de frecuencia categóricas donde  tomamos como la moda a la clase que agrupa más datos. Supongamos, por ejemplo, que al realizar una encuesta para estudiar las preferencias  de aficionados a siete equipos de futbol en México se obtuvieron los resultados de la siguiente grafica barras. Ahí es facil apreciar que la barra más alta corresponde al Guadalajara con 960 seguidores, por lo que la moda (o decisión modal)es el Guadalajara.
Cuando buscamos promediar cantidades, a veces nos enfrentamos al hecho de que no todos los datos tienen la misma importancia o el mismo peso. Consideremos el caso de una empresa mensajeria  que cuenta con 32 vehículos para repartir paquetes. La siguiente tabla muestra cuántas unidades hay de cada tipo y cuál es su rendimiento por litro de gasolina
¿Cómo calcúlamos el rendimiento promedio que dan todos los vehiculos repartidores de la empresa?Es claro que si calculamos la media de los rendimientos, obtendríamos el rendimiento promedio como si la empresa contase con un auto de cada tipo, mientras que en este caso debemos de otorgar mayor peso a los Volswagen Sedán y a los Tsurus que son los más numerosos y menos peso a los Pick-up Nissan que únicamente son tres. Una manera natural consiste en contar cada rendimiento tantas veces como unidades del tipo haya, de modo que el rendimiento total será


Recordemos que cuando se tiene una expresión como la de arriba, efectuamos primero las operaciones dentro de los parentesis del númerador , después las sumas, y una vez hemos calculado el numerador procedemos a dividir.

Veamos otro ejemplo semejante. Una cooperativa de pescadores capturó en una semana 1.5 toneladas  de camarón, 3.4 toneladas de sierra, 2.9 toneladas de atún, 3.8 toneladas de bandera y 0.8 toneladas de dorado. Los precios a kis que se comercializó la pesca fueron $ 20 000.00 por tonelada de camarón, $ 6000.00 por tonelada de sierram $ 12 000 por tonelada de atún, $ 8 000.00 por tonelada de bandera y $ 14 000 por tonelada de dorado. ¿Cuál fue el precio promedio que recibieron por tonelada? De nuevo , lo más conveniente será multiplicar el precio de cada producto por la cantidad vendida durante la semana para obtener el ingreso total, y después dividir por el total de toneladas pescadas:



Así, el precio  promedio por tonelada fue de $ 10 225.80 .
En general para poder promediar estas cantidades que no tienen la misma importancia es necesario asignar a cada una un peso. Si los datos x1, x2, x3,... ,xn ,tienen pesos w1, w2, w3,... ,wn
su media ponderada está dada por

En el caso del rendimiento de los vehículos repartidores los pesos fueron el número de vehículos de cada tipo , mientras que en el caso de la cooperativa pesquera los pesos correspondieron a las toneladas vendidas de cada tipo de producto.

En general, la información contenida en los datos nos indica queé pesos debemos utilizar en la media ponderada. Un caso que se presenta con frecuencia es cuando las cantidades que queremos promediar difieren porcentualmente.

Consideremos, por ejemplo, a Doña Gamucita Pilongano que al enviudar invirtió  el 35% del seguro de vida de su marido en acciones de Telmex, el 25% en acciones de Cemex  y el 40% restante en Cetes.Si en cierto periodo las acciones de Telmex rindieron un beneficio de 4.5 %, las de Cemex el 3.6% y los Cetes el 3.9%, ¿cuál es el beneficio promedio que obtuvo doña gamucita en este periodo?Los pesos corresponden ahora a la distribución porcentual de la inversión de doña Gamucita, 35,25 y 40 que suman obviamente 100, así que el rendimiento promedio de la inversión  fue de

.

martes, 21 de febrero de 2012

0024.1 Distribuciones de frecuencia

La institución oficial en México que se encarga de recolectar clasificar y analizar datos es el Instituto Nacional de Estadística, Geografía e Informática (INEGI). Los datos que recolecta el INEGI abarcan multitud de aspectos de la vida social y económica del país . Tomemos por ejemplo los matrimonios que ocurrieron en México durante el año de 1995. En este periodo se efectuaron 658114 matrimonios. Para cada uno de estos matrimonios, el Registro civil guarda un expediente que contiene piezas de información tales como los nombres de los contrayentes, sus fechas de nacimiento, edad, lugar de residencia, nacionalidad, ocupación, escolaridad, et. ¿Cómo podríamos presentar todo este universo de datos e información de manera sencilla? Para difundir los resultados de sus estudios, el INEGI los agrupa y ordena de manera que sea posible obtener una visión global clara sin perder mucha información. Es obvio que debido a la variedad de información que contiene cada expediente, es necesario seleccionar algún aspecto de interés para agrupar y ordenar toda esta información .Esta selección depende indudablemente de los aspectos que deseamos estudiar y analizar toda esta información, Esta selección depende indudablemente de los aspectos que deseamos estudiar y analizar. Un aspecto de interés general es la edad de los contrayentes, mientras que saber cuántos Manueles se casaron con Luceros, o cuántos hombres de signo acuario se casaron con mujeres de signo escorpión evidentemente no lo es.

Con frecuencia agrupamos los datos en cierto número de clases (llamados también intervalos o categorías) como lo muestra la siguiente tabla de matrimonios en México durante 1995.



Una Tabla como esta es llamada una distribución de frecuencias. La mayoría de los intervalos en esta distribución son de cinco años. Observemos que al escoger estas clases la información se simplifica considerablemente; de no ser así, la tabla tendría más de 75 renglones, correspondientes a las edades de las contrayentes. Por supuesto que al hacer esta simplificación se pierde cierta información. Por ejemplo, a partir de la distribución de frecuencia podemos observar que durante 1995 se casaron casi el doble de mujeres entre los 15 y los 19 años que entre los 25 y los 19 años, pero no podemos determinar si hubo más matrimonios de mujeres de 18 años que de mujeres de 26 años.

Con excepción de la primera y la última, las clases están determinadas por una pareja de números , llamados límites de clase. Por ejemplo, los limites de la tercera clase son 20 y 24. De hecho, los valores 15, 20,25,...45 son llamados límites inferiores, mientras que los valores 19, 24, 29,...,49 son los límites superiores. A la diferencia entre el limite superior de una clase y el límite superior de la clase anterior se le conoce como el intervalo de la clase. Por ejemplo el limite superior de la tercera clase es 24 y el limite superior de la segunda es 19 de modo que el intervalo de la clase es 24-19= 5.

Si las clases en que agrupamos los datos son determinadas por intervalos numéricos, como en el caso anterior, decimos que la distribución es numérica o cuantitativa. Cuando los datos no son agrupados en clases numéricas la distribución es categórica o cualitativa , como la siguiente tabla que nos muestra los divorcios ocurridos en el país durante 1995 de acuerdo a sus causas.

El diseño de una distribución de frecuencias depende esencialmente de cómo seleccionamos las clases. Para las distribuciones numéricas esta elección es arbitraria, pero hay algunas reglas generales que es conveniente observar:

1. El Número de clases en general debe ser entre 5 y 15, dependiendo del número de observaciones o datos que debemos agrupar.

Por ejemplo, si se tienen únicamente 8 datos, resultaría absurdo agruparlas en una distribución de 12 clases, donde varias de ellas resultarían vacías. Asimismo perderíamos mucha información si decidiéramos agrupar los 658 114 matrimonios durante 1995 en sólo tres o cuatro clases.

2.- Cada dato debe pertenecer exactamente a una clase.

Esto significa que debemos elegir las clases de tal manera que dos clases no tengan datos en común y que además cualquier dato pertenezca a una clase.

3.-Siempre que sea posible, elegir clases con intervalos numéricos iguales.

La tabla de distribución de matrimonios por edades de la contrayente cumple casi todas estas reglas, a excepción de la última , ya que la primera y la última clase no están determinadas por un intervalo de cinco años. La primera corresponde a matrimonios donde la contrayente es menor de 15 años, mientras que la última corresponde a matrimonios donde la contrayente tiene 50 o más años. A este tipo de clases se les llama abiertas y están definidas por expresiones como “ó mayores”, “mayores que”, “ó menores” o “menores que”. Una regla que siempre hay que considerar es la siguiente: cuando empleamos clases abiertas es deseable, que con el fin de no perder demasiada información, éstas contengan pocos datos en relación con el resto de las clases.

Consideremos ahora los resultados de un examen de física practicado a un grupo de 30 alumnos. La siguiente tabla muestra las calificaciones de este examen.

Como se trata de calificaciones escolares, los maestros usualmente aplican la regla de que de medio punto para arriba la clasificación sube, mientras que debajo de medio punto no sube, por lo que en este caso es razonable agrupar los datos de acuerdo con la calificación que recibirán. Esto nos sugiere que en general la elección de los intervalos de las clases depende del fenómeno que estamos analizando.
La cuarta clase, por ejemplo corresponde a los exámenes que recibirán 7 de calificación en la boleta, esto es, a los exámenes con calificación igual o mayor a 6.5 y menor o igual a 7,4. Así, 6.5 es el limite inferior de esta clase y 7.4 es el límite superior de esta clase. Para la tercer clase, estos límites son 5.5 y 6.4 respectivamente. El intervalo de la cuarta clase es entonces 7.4 – 6.4 = 1, respectivamente. Sin embargo, si los valores numéricos de las calificaciones son más detallados y contienen dos o más decimales, sería necesario cambiar los límites de las clases a 6.5 y 7.49 , o quizás, a 6.5 y 7.499. Para evitar este tipo de antigüedad es conveniente considerar otro concepto análogo a los límites de la clase, el de los valores divisorios o frontera de una clase. Un dato pertenece a la primer clase si su valor es mayor o igual a 3.5 y menor que 4.5, un dato pertenece a la segunda clase si su valor es mayor o igual que 4.5 y menor que 5.5 , etc. En este caso los valores divisorios de las clases son 3.5,4.5,5.5,...9,5,10.

Al promedio entre los valores divisorios de una clase le llamamos la marca de la clase o punto medio de la clase. Por ejemplo , para la cuarta clase sus valores divisorios son 6.5 y 7.5 por lo que su marca o punto medio es (6.5 +7.5) / 2 = 7, que es precisamente la calificación asignada en la boleta para los exámenes que caen en esta clase.

Para el caso de los matrimonios durante 1995, los valores divisorios a partir de la segunda clase son 15, 20,25,etc. Las marcas de clase son entonces (15 +20) / 2 = 17.5. (20+25 )/2 =22.5, etc.

La distribución de frecuencias puede modificarse un poco y presentar los datos de manera porcentual, dividiendo el número de observaciones de cada clase por el total de observaciones y luego multiplicando por 100. Por ejemplo, para la tabla anterior podemos calcular los porcentajes dividiendo los números de la columna derecha por 30 y luego multiplicando por 100. Por ejemplo sabemos que 8 alumnis obtuvieron entre 7.5 y 8.4 en el examen, así que el porcentaje de éstos es de 8/30 x 100 = 26.67.
Los otros porcentajes se obtienen de manera semejante y son mostrados en la siguiente tabla.



¿Por qué la suma de los pórcentajes es un poco mayor que 100? ¿Hay un error en los cálculos? Este fenómeno sucede con frecuencia y se debe a los errores de redondeo por considerar únicamente dos decimales.

Cuando las distribuciones de frecuencia son construidas para describir de manera sencilla grandes cantidades de datos, los histogramas constituyen una forma gráfica de representarlas. Un histograma se construye asignando a las medidas de las clases la escala horizontal y a las frecuencias de cada una de las clases la escala vertical. En general no es conveniente emplear histogramas cuando algunas clases son abiertas  o cuando los intervalos de las clases no son iguales. El siguiente histograma representa los resultados del examen de fisica que hemos analizado previamente.


Aquí es fácil apreciar que la calificación que apareció con mayor frecuencia fue el ocho, ya que la barra asociada al ocho es la más alta, así como que la calificación menos frecuente fue el cuatro, pues su barra señala únicamente una unidad. Existen otras maneras gráficas de presentar datos que se emplean con menos frecuencia que el histograma, como por ejemplo los polígonos de frecuencia. En el caso de los polígonos de frecuencia cada clase se representa por un punto cuya coordenada horizontal es la marca de la clase y cuya coordenada vertical es la frecuencia de la clase.


El polígono de frecuencias se obtiene al unir por segmentos de recta estos puntos. La siguiente figura muestra un polígono de frecuencia al caso del examen de física antes citado.

Polígono de frecuencias



Las distribuciones categóricas pueden también presentarse gráficamente por medio de diagramascirculares o diagramas de pie (de “pay” o de pastel), donde las categorías son representadas como sectores o rebanadas proporcionales al tamaño de las categorías. Para elaborar un diagrama circular es conveniente convertir primero la distribución a una distribución porcentual.

Para ejemplificar el uso de estos diagramas circulares consideramos la distribución del personal ocupado por la industria maquiladora en México en el año de 1995.

Comno un círculo completo corresponde a 360 grados, obtenemos la amplitud de cada sector multiplicando los porcentajes por 3.6 . Por ejemplo , para las mujeres obreras tendriamos un sector de 48.22 x 3.6 =173.592 grados. Puesto que en el diagrama  circular no distinguimos a simple vista si el sector tiene 173.59 o 174 grados , a las mujeres obreras les asignamos un sector de 174 grados, y para los obreros hombres su sector correspondiente tendra 33.63 x  3.6 = 121 grados.

Diagrama circular

Los métodos gráficos son sumamente útiles paraproporcionar una descripción  genenral de datos, confirmando el dicho de que una figura dice mucho más que mil palabras.

Por último quisiera hacer enfasis en el hecho de que si bien para realizar una gráfica o diagrama circular es muy conveniente convertir la distribución de frecuencias que estamos manejando en una distribución porcentual esto no es forzoso, lo importante es que a la hora de realizar la gráfica establescamos una equivalencia entre el total de la población y los 360° del círculo , obteniendo cuantos grados le corresponden a cada elemento mediante una regla de 3.


domingo, 19 de febrero de 2012

0024.-Introducción a la estadística

Retomo el blog, que ya lo tenía abandonado desde el 2009, sin embargo el primer dilema al que me enfrento es sobre la naturaleza del material a postear a continuación, ¿algebra, geometría o aritmética? ¿Del tipo de olimpiadas de matemáticas o de otro tipo? Material de nivel de secundaria, bachillerato, o incluso empezar con algunos apuntes universitarios de cálculo? Mientras resuelvo ese dilema posteare algunos apuntes de estadística básica.



Introducción a la estadística
La palabra estadística tiene fundamentalmente dos significados. El primero de ellos se refiere a datos clasificados, especialmente numéricos, acerca de una clase de objetos. Así, se habla de estadísticas de accidentes, estadísticas de salud, de natalidad, de deportes, etc. En un segundo significicado, se llama estadística a la ciencia que trata de la recolección, análisis, interpretación y representación de datos numéricos.

La estadística tiene su origen en dos áreas de interés que en apariencia tienen muy poco en común: la ciencia política y los juegos de azar.

Los gobiernos han tenido interés desde la antigüedad en contar las personas, sus propiedades y en especial los impuestos que recaudaban o podían recaudar. Ya en el Antiguo Testamento se mencionaron censos de carácter militar, mientras que en Babilonia, China y Egipto y Roma se elaboraron censos con propósitos fiscales. El primer censo del que se tiene noticia en México data del año 1116, cuando el rey chichimeca Xólotl ordenó que fueran censados todos sus súbditos. Para contarlos ,cada uno tiró una piedra en un montón llamado nepohualco (contadero). Se formaron así doce montones de piedras y, de acuerdo con los códices, el resultado arrojo la cifra de 3 200 000 personas. Durante la Colonia se levantaron varios censos de población y recuentos demográficos de los que no se tienen datos. Pero en 1790 el virrey Revillagigedo ordenó el trabajo más amplio estadístico más completo de la Colonia, del que se conservan 40 tomos en el Archivo General de la Nación. Desde fines del siglo XIX , salvo en la época de la revolución mexicana, se han conducido Censos Generales de Población y Vivienda Cada 10 años. Es a través de su lectura que vemos cómo ha evolucionado la sociedad mexicana a lo largo del tiempo. Los problemas asociados a la descripción, resumen y análisis de los datos de los censos ha dado lugar al desarrollo de métodos que constituyen una de las partes de la estadística que más ha sido estudiada, la estadística descriptiva.

Aun cuando la estadística descriptiva es muy importante y se emplea ampliamente la mayoría de la información estadística proviene de observaciones efectuadas a una pequeña proporción del conjunto total. Como resultado de esto, la estadística inferencial ha desarrollado técnicas que permiten hacer predicciones a partir de datos conocidos, o bien obtener información acerca de una población conociendo únicamente a algunos representantes de ella. (Definimos pues a a la estadística inferencial como la parte de la estadística que comprende los métodos y procedimientos para deducir propiedades de una población, a partir de una pequeña parte de la misma.) Con los métodos de la estadística inferencial es posible, por ejemplo predecir los resultados de una elección (con base en la opinión previa de algunos ciudadanos), estimar la vida media de un circuito electrónico (con base en el desempeño que han tenido algunos circuitos semejantes), comparar la efectividad de dos dietas para reducir de peso (con base en la pérdida de peso que han tenido algunas personas que se han sometido estas dietas), determinar cuál es la dosis adecuada de cierto medicamento (con base en estudios realizados con enfermos voluntarios), o bien predecir el flujo de vehículos en una autopista que se va a construir (con base en el tráfico que tienen carreteras alternativas en uso).

En cada una de las situaciones arriba mencionadas hay incertidumbre en las respuestas que es posible darle a cada una. Esto se debe a que la información con que se cuenta es indirecta, parcial o incompleta, y es con el uso de los métodos de la estadística inferencial que podemos juzgar la confiabilidad del circuito electrónico, la eficiencia de cada una de las dieta, el beneficio y contraindicaciones de un medicamento, asi como la necesidad de construir la autopista, o bien de emplear estos recursos en alguna otra obra de mayor interés para la comunidad.

Las técnicas de la estadística inferencial tienen su origen en la teoría de juegos de azar. Sólo que en el contexto de la estadística en general no hablamos de águila o sol, o de pares o tercia, sino de situaciones diversas como de niño o niña sanar o morir, funcionar o fallar, fumar causa cáncer o si cierto candidato será próximo presidente municipal. Para analizar este tipo de situaciones necesitaremos de la teoría de probabilidad, que es el fundamento de la estadística inferencial.

El empleo de la estadística tanto en la vida profesional como en multitud de aspectos de la vida profesional ha aumentado considerablemente en las últimas décadas. Esto se debe, por un lado, a la necesidad de aplicar métodos cuantitativos en muchas áreas del quehacer humano, tales como la administración de empresas, las finanzas, la medicina, la sicología , la producción la contaminación ambiental, la política, etc. Por otro lado , la tecnología computacional ha avanzado considerablemente y hoy en día es posible manipular datos de manera sencilla y eficiente con el uso de paquetes estadístico o de una hoja de cálculo en una computadora personal.

Debemos enfrentarnos todos los días a situaciones donde la estadística y la probabilidad juegan un papel importante. Es indispensable contar con conocimientos de estadística y probabilidad para entender la variabilidad y la incertidumbre en una encuesta de intención de voto antes de unas elecciones, en un reporte médico donde se correlaciona cierta enfermedad con cierto hábitos, o bien , en la calidad de un lote de artículos dónde se analizó una pequeña muestra.

Tengo la certeza de que los siguientes apuntes te brindaran una herramienta poderosa y sencilla que te permitirá tomar decisiones racionales en la vida profesional y te permitirá ser capaz de juzgar críticamente la información estadística que a diario es colectada, procesada y difundida al publico.