sábado, 31 de marzo de 2012

Conteo

Para pronosticar el triunfador en una elección municipal necesitamos al menos conocer quiénes son los candidatos, así como para pronosticar quien ganara un torneo de futbol debemos de conocer que equipos participaran y que reglas seguirá el torneo. En general, no es posible hacer predicciones razonables a menos de que conozcamos lo que es posible, es decir es necesario conocer lo que es posible antes de juzgar lo que es probable. En los próximos posts estudiaremos cómo determinar en algunos casos lo que es posible.
En el análisis de lo que es posible, un problema muy importante es el especificar cuántas distintas situaciones pueden suceder. Supongamos que el comité ejecutivo estatal de un partido político debe elegir un candidato a diputado local y un candidato como diputado suplente por un distrito. Los posibles candidatos titulares a diputados son el Sr. González, la Sra. Fernández y la Sra. Huerta, y los candidatos a diputados suplentes son la Sra. Arteaga, el Sr. Torres y el Sr. Uribe. ¿Cuántas posibles fórmulas pueden integrar si para ganar el candidato femenino deciden que un candidato sea hombre y otro mujer? Una forma de analizar las diferentes posibilidades es por medio de un diagrama de árbol, que aparece en la siguiente figura. Las ramas de la izquierda representan los candidatos titulares y las ramas de la derecha los posibles candidatos suplentes. Si partimos del vértice de la izquierda (llamado la raíz del arbol) por las diferentes ramas hasta llegar a alguno de los vértices de la derecha (terminales) tenemos cinco caminos posibles, uno por cada uno de los vértices terminales. Cada uno de estos caminos representa una de las fórmulas posibles que el comité ejecutivo estatal debe tomar en consideración. Por ejemplo, el cuarto vértice de arriba a abajo corresponde a la opción de la Sra. Huerta (titular) y del Sr Torres (suplente).
Los diagramas de árbol nos permiten describir una amplia variedad de situaciones, como lo muestra el siguiente ejemplo. A un merenguero le quedan sólo dos merengues y un estudiante tiene 2$. Aceptan jugar los dos merengues y los dos pesos en volados, donde si cae águila el estudiante gana un merengue y se lo come de inmediato, y si cae sol el merenguero gana $ 1. El juego es “a morir”, esto es, hasta que el estudiante se quede sin dinero o que el merenguero se quede sin dinero o que el merenguero se quede sin merengues. ¿De cuántas maneras se puede desarrollar el juego? En el diagrama de árbol de la siguiente imagen podemos observar que el juego se puede observar de seis maneras diferentes.
Consideremos ahora un estudio médico donde los pacientes son clasificados de acuerdo con su tipo de sangre (A,B,AB, O) y a su presión cardiovascular (baja, normal y alta) ¿Cuántos tipos de paciente hay? En el diagrama de árbol mostrado a continuación representamos primero los tipos de sangre, y posteriormente, para cada tipo de sangre representamos las presiones cardiovasculares. Tenemos ahora doce caminos posibles de la raíz a cada uno de los vértices terminales. Por ejemplo, el quinto vértice de arriba abajo corresponde al camino de las ramas B y normal, es decir, pacientes con tipo de sangre B y presión cardiovascular normal.
En este caso el número de tipos de paciente es 4 x 3 = 12, esto es, el producto del número de tipos de sangre con el número de tipos de presión cardiovascular. Si el estudio médico requiriera además clasificar a los pacientes de acuerdo a si su factor RH es positivo o negativo, para formar el nuevo diagrama de árbol necesitaríamos añadir dos nuevas ramas (una con Rh + y otra con Rh-)a cada uno de los doce vértices terminales del arbol anterior. Ahora contaríamos en total con 24 caminos posibles. El número de tipos de paciente es ahora 4 x3 x 2 = 24, esto es, el producto del número de tipos de sangre por el número de tipos de presión cardiovascular por el número de tipos RH.


El último ejemplo nos permite obtener la siguiente regla:

Regla del producto: Si una elección consiste de k pasos, donde el primero se puede hacer de n1 maneras, el segundo de n2 maneras,… y el último de nk maneras, entonces hay n × n2 × …× de nk maneras posibles de hacer todas las elecciones.

Veamos algunos ejemplos donde apliquemos la ley del producto:
 1.- Un examen de diez preguntas consiste en seis preguntas de elección múltiple, cada una con cuatro posibles respuestas, y después de otras cuatro preguntas de falso o verdadero. ¿De cuántas maneras se puede contestar el examen?
En este caso hay k = 10 elecciones, con n 1 = n 2= n 3= n 4= n 5== n 6=4, y n 7 = n 8= n 9= n 10=2, de ,pdp que al aplicar la regla del producto tenemos un total de 4×4×4×4×4×4×2×2×2×2=46×24=65536 maneras posibles de contestar el examen.
 ¿En cuántas maneras es posible responder el examen y obtener todas las respuestas mal?
De nuevo hay k=10 elecciones, pero ahora con
 n 1 = n 2= n 3= n 4= n 5= n 6=3  y n 7 = n 8= n 9= n 10=1.
Al aplicar la regla del producto tenemos un total de 3×3×3×3×3×3×1×1×1×1=36×14=729 Maneras de contestar mal a todas las preguntas.
Una persona piensa comprar cierto automóvil. El fabricante ofrece cualquier combinación de las siguientes alternativas: seis colores diferentes, dos tipos de motor; tres tipos de rines; transmisión manual o automática; sin radio, con radio AM-FM, con radio AM-FM-tocacintas o con radio AM-FM-CD; y sin aire acondicionado o con aire acondicionado. Cada comprador debe hacer una elección con respecto al color, motor, rines, transmisión, radio y aire acondicionado, por lo que k=6 . En este caso n 1 = 6,n 2=2, n 3= 3,n 4= 2 ,n 5=4 y n 6=2. Por la regla del producto habrá un total de 6×2×3×2×4×2=576 Alternativas posibles para ordenar este modelo.
La regla del producto nos permite en muchos casos calcular el número de posibilidades sin necesidad de listar todas ellas o de desarrollar un diagrama de árbol.Es importante tener en cuenta que para poder aplicar esta regla no debe haber restricciones en las comnbinaciones posibles. Un ejemplo donde no se puede aplicar la regla es el de las fórmulas de candidatos a diputados que al analizamos al inicio del post, donde la restricción de que debe haber un candidato de cada sexo limita el número de fórmulas posibles. Si aplicáramos la regla del producto  a este ejemplo tendríamos 3  × 3 = 9 fórmulas posibles. Estas nueve fórmulas contienen las cinco concandidatos de diferente sexo que ya habiamos descrito, y otras cuatro donde los dos candidatos tienen el mismo sexo.

viernes, 30 de marzo de 2012

Asimetría

Puesto que hay una gran diversidad en la manera como se pueden presentar los conjuntos de datos, en ocasiones es conveniente describir cualitativamente el tipo de distribuciones a la que dan lugar. A continuación se muestran tres tipos de distribuciones que aparecen frecuentemente. La primera de éstas, la distribución simétrica en forma de campana, es sin duda la más importante.
Existen muchas razones teóricas por las cuales las distribuciones de muchos conjuntos de datos esperamos que tomen esta forma.




Las otras dos también tienen forma de campana, pero con una cola a la derecha (positivamente sesgada) o a la izquierdo (negativamente sesgada). Distribuciones de ingreso o salario, por ejemplo son usualmente sesgadas positivamente, debido a que grandes sectores de la población perciben ingresos bajos, y los sectores de la sociedad con mayores ingresos son muy reducidos.


En una distribución positivamente sesgada las clases más numerosas se agrupan a la izquierda y las clases pequeñas de la derecha tienden a jalar la media hacia la derecha, por lo que la mediana se localiza a la izquierda de la media. Análogamente, en una negativamente sesgada la mediana se encuentra a la derecha de la media. Esta observación nos permite definir el coeficiente de asimetría como
El coeficiente de asimetría toma en general valores entre -3 y 3, y para una distribución perfectamente simétrica es cero. La siguiente figura muestra la distribución de matrimonios en 1995. Como las clases más numerosas se cargan a la izquierda se trata de una distribución positivamente sesgada.
Matrmimonios en 1995 por edad de la contrayente.
Podemos comprobar que su coeficiente de asimetría es positivo
Otros tipos de distribuciones comunes son:

Como es evidente en las figuras, los nombres de distribuciones en forma de J, en forma de J inversa y en forma de U describen la forma de estas distribuciones.

lunes, 26 de marzo de 2012

Medidas de dispersión

En este post buscaremos complementar la información importante que brindan las medidas de tendencia central acerca de un conjunto de datos. Supongamos que tenemos dos pacientes sometidos a un tratamiento para regularizar su presión arterial en un hospital. La enfermera entrega al médico los siguientes reportes de su presión sistólica (máxima) durante las últimas 24 horas
La media en ambos casos es de 117 Mg Hg, que es aceptable para la edad de los pacientes. Sin embargo, el médico difícilmente encontrará satisfactorio el tratamiento del paciente B. ¿Por qué? Es claro que la forma en que se distribuyen las presiones arteriales de los dos pacientes es muy diferente, ya que en el primer caso la variabilidad es muy pequeña, mientras que en el segundo es muy alta.
Un aspecto que salta a la vista es la diferencia de rangos en el ejemplo anterior. El rango o amplitud de un conjunto de datos numéricos es simplemente la diferencia entre el dato mayor y el menor. Para el paciente A el rango está dado por 124-110= 14, y para el paciente B obtenemos el rango mucho más amplio, pues 157-79=78.
El rango es una medida que se entiende y calcula fácilmente, pero no es muy útil como medida de dispersión. Para ilustrar esto consideremos los siguientes conjuntos de datos.

A pesar de que cada uno de estos tres conjuntos tiene una media de 10 y un rango también de 10, su variabilidad es muy diferente; es más pronunciada en el primer caso y menor en el último. Esto se debe a que en el primer conjunto los datos se encuentran alejados de la media ,mientras que en el tercer conjunto, la mayoría de los datos están distribuidos muy cerca de la media.
Consideremos una población con datos x1 , x2, x3,…, xN.Si la media de la población es μ, entonces las diferencias x1 - μ, x2 - μ, x3 - μ,…, xN - μ, son las desviaciones de la media. ¿Es razonable tomar a la media de estas desviaciones como medida de variabilidad? Aunque a primera vista parece correcto, observemos que como la media se encuentra aproximadamente al centro de los datos, estas diferencias serán positivas para aquellos datos xi que sean mayores a la media y negativos para aquellos que sean menores, de modo que al sumar las desviaciones de la media habrá muchas cancelaciones. De hecho, no es difícil comprobar que la suma de las desviaciones de la media, y en consecuencia su media, es siempre cero.

Sin embargo, si elevamos al cuadrado las diferencias de las medias, éstas serán siempre positivas, a excepción del caso de que el dato xi coincida con la media, esto es cuando xi - μ es cero. Si tomamos la media de estos cuadrados y sacamos su raíz cuadrada (para compensar que las desviaciones fueron elevadas al cuadrado) obtenemos la desviación estándar de la población que se denota por la letra griega σ (sigma).
Parecería natural definir la desviación estándar de una muestra sustituyendo
x
por μ y n por N, pero no es así. En lugar de dividir por n, el tamaño de la muestra se divide por n-1.

Su cuadrado s2, es la varianza de la muestra. El hecho de dividir por n-1 en lugar de dividir por n no es arbitrario. La razón teórica es que si dividiesmos por n y usásemos s para aproximar σ, nuestra aproximación resultaría pequeña, y esto lo arreglamos dividiendo por n-1. Cuando n es grande, la diferencia entre dividir por n-1 o por n resulta en realidad insignificante.

Para calcular la desviación estándar debemos (1) determinar la media
x
, (2) las diferencias de las medias, (3) elevar al cuadrado estas diferencias, (4) sumar los cuadrados, (5) dividir por n-1, y finalmente (6)sacar la raíz cuadrada. Calculemos la desviación estándar de las presiones de los pacientes .Debemos primero decidir cuál de las dos expresiones usar, es decir, si se trata de muestras o de poblaciones.
Es claro que las lecturas que tenemos de los pacientes corresponden a un pequeño registro de sólo seis reportes que tomó la enfermera. Si el médico lo hubiese indicado se podría haber llevado un registro más frecuente de las presiones de los pacientes. Por tanto corresponde a la expresión para una muestra.

La media en ambos casos era de 117. Los primeros cuatro pasos para calcular la desviación estándar se encuentran en la siguiente tabla.
Observemos  que las sumas de las desviaciones de la media son efectivamente cero, como ya lo habíamos señalado anteriormente. Las desviaciones estándar para los pacientes A y B son entonces

El hecho de que la desviación del paciente B sea considerablemente mayor refleja que sus presiones sistólicas se encuentran más alejadas de la media.
El procedimiento arriba señalado para calcular desviaciones estándar puede abreviarse un poco.
El procedimiento arriba señalado para calcular desviaciones estándar puede abreviarse un poco.
Observemos que

Entonces,
Y por lo tanto, la desviación estándar de la media también la podemos obtener por la siguiente expresión
De manera análoga la siguiente fórmula nos permite obtener la desviación estándar de la población.



Tal vez te podrían confundir las expresiones ∑ x2 y (∑x)2 . En ∑ x2 primero elevamos al cuadrado y luego sumamos, y en (∑x)2 primero sumamos y luego elevamos al cuadrado. Estas fórmulas nos permiten calcular más rápidamente la desviación estándar. La ventaja de esta fórmula sobre nuestra expresión original radica en que no es necesario calcular cada una de las diferencias de la media xi -
x.

Para ilustrar el empleo de esta nueva expresión calcularemos de nuevo las desviaciones estándar de las presiones de los pacientes A y B.
La desviación estándar de la muestra de las presiones del paciente A es
Y  la del paciente B es
Y  la del paciente B es

La importancia de la desviación estándar no sólo radica en el hecho de que nos da información de cómo se distribuyen los datos de un conjunto alrededor de su media, sino que además es muy útil en problemas de inferencia que trataremos más adelante.
El siguiente resultado, conocido como el teorema de Chebishev, en honor del matemático ruso Pafnuti Shevishev (1821-1894), nos indica con mayor precisión cómo la desviación estándar refleja la manera en que los datos de distribuyen alrededor de la media .

¿Qué significa este teorema? Por ejemplo, si k=2, al menos 1-1/22= 1- ¼ = ¾  o  75% de los datos deben estar a lo más a 2 desviaciones estándarde la media;para k=3, al menos 1-1/32= 1-1/9 = 8/9 o 88.9% de los datos deben estar a lo más a 3 desviaciones estándar de la media, etc.

Veamos cómo podemos aplicar este resultado a las calificaciones del examen de física que estudiamos en un post anterior. Para calcular la desviación estándar calcularemos usaremos la expresión

,ya que se trata ahora de todas las calificaciones del examen, es decir, la poclación. En este caso N=30,
(∑x) 2, =(3.9+4.6+…+10)2, =(218.7)2, =47829.69 ,
∑x2, = (3.9) 2, + (4.6)2, +…+(10)2, =1665.55.
Por lo tanto,
La media de este conjunto de calificaciones es de 7.29. El teorema de Chevishev asegura que, por ejemplo, para k=1.5, entonces 1-1/1.5 =0.552, por lo que cuando menos el 55% de las califciaones son mayores a 7.29-  (1.5)(1.54)= 4.98 y son menores que 7.29 + (1.5)(1.54)=9.6.

Es muy útil que el valor de la constante k del teorema de Chevishev sea arbitrario. Consideremos por ejemplo una empresa papelera que vende paquetes de hojas para fotocopiado. Los paquetes tienen una media de 500 hojas con una desviación estándar de 0.6. ¿Cuál es el mínimo porcentaje de paquetes que contienen entre 498 y 502 hojas? En este caso estamos permitiendo que haya una variación de 2 hojas por paquete. Al expresar esta variación en términos de desviaciones estándar tenemos la ecuación 2= .6k, y al resolverla tenemos que k= 3.33. Como 1- 1/3.332=0.91, el teorema de Chevishev nos gaantiza entonces que cuando menos el 91]% de los paquetes contiene entre 498 y 502 hojas.

 El teorema de Chevishev se aplica a cualquier conjunto de datos y nos dice que cuando menos un porcentaje de ellos se encuentra entre ciertos límites. En el caso del ejemplo anterior sabemos que al menos 91% de los paquetes contiene entre 498 y 502 hojas , pero podría haber un porcentaje mayor dentro de estos límites.
En el caso del examen de física sabemos que al menos 55 % de las calificaciones están entre 4.98 y 9.6 y, de hecho, este porcentaje es mucho mayor, ya que únicamente 4 calificaciones no caen en este rango, lo que equivale al 13.33 %. Más adelante  estudiaremos  distribuciones muy comunes de forma de campana donde se tiene mucha más información sobre la variabilidad de datos.
Ya hemos determinado fórmulas para obtener la media y desviación estándar de un conjunto de datos. ¿Es posible determinar la media, la mediana y la desviación estándar cuando los datos que tenemos ya vienen agrupados? Esto sucede con mucha frecuencia en los datos que se publican por el INEGI o por algún otro organismo o empresa.
Ya mencionamos que al agrupar datos se pierde información y por lo tanto debemos conformarnos con una aproximación de la media, mediana y desviación estándar. Para calcular estos parámetros se asigna a cada dato el valor de su marca de clase correspondiente. Así, si se tienen k clases y si denotamos por xi al valor de las marcas de clase i y por fi a su frecuencia, entonces debemos contabilizar f1 veces a x1, f2 veces a x2, etc. Entonces el total de datos es n= f1 + f2 +…+ fk y la media de una muestra está dada entonces por
La suma de los cuadrados de los datos es x12 ∙ f1 + x22 ∙ f2+…+ xk2 ∙ fk= ∑ x2 ∙f y podemos calcular la desviación estándar de la muestra mediante la expresión

Las fórmulas para la media y la desviación estándar de una población vienen dadas por
Veamos cómo aplicar estas fórmulas para obtener la media y la desviación estándar a partir de datos agrupados por el histograma de las calificaciones del examen de física que revisamos en un post anterior.

La siguiente tabla contiene los cálculos necesarios para poder aplicar las fórmulas de arriba. Veamos cómo obtuvimos los datos del tercer renglón. El tercer renglón corresponde a los exámenes que obtuvieron calificación 6, que es precisamente el valor de la marca de clase x.
En la segunda columna aparece x2 = 62, =36, en la tercer columa la frecuencia f=5 , que es el número de alumnos que obtuvieron calificación 6, en la cuarta y quinta columna aparecen los productos x ∙f = 6∙5=30 y x2, ∙f=36 ∙5 =180.Los otros renglones se calculan de la misma manera.

La media es entonces
Y la desviación estándar es
Recordemos que los valores de estos parámetros calculados a partir de los datos originales (antes de ser agrupados) es de 7.29 y 1.54. La diferencia con respecto a los valores que acabamos de obtener se conoce como error por agrupamiento. En el caso del examen de física el error por agrupamiento resultó prácticamente imperceptible para la desviación estándar.
 Una vez que han sido agrupados los datos tampoco es posible determinar el valor exacto de la mediana. Sabemos que, después de ordenar los datos, la mediana es el valor del dato que divide en dos conjuntos de igual tamaño a todos los datos. Cuando los intervalos de clases son iguales, la mediana se puede determinar como el número que divide el área total del histograma en dos partes iguales, una a la izquierda y otra a la derecha.
 En el histograma del examen de física las bases de los rectángulos son siempre iguales a 1 , aspi que el área total de los rectángulos es de 30. La suma de las áreas de los primeros cuatro rectángulos es de 15, de modo que la mediana es el valor divisorio de esta clase, que es de 7.5. Este valor coincide en este caso con el valor real de la mediana antes de agrupar los datos. Analicemos ahora un ejemplo un poco más elaborado desde el punto de vista computacional, es decir, donde el número de operaciones y la magnitud de los números es mucho mayor.
Consideremos de nuevo los matrimonios en México durante 1995. En la tabla de los matrimonios apreciamos dos clases abiertas, la clase de los matrimonios donde la contrayente tiene menos de 15 años y la clase donde la contrayente tiene más de 50 maños. Ambas clases son pequeñas en relación con el total de matrimonios, pues cada una contiene menos del 1.5% . Para clases abiertas no tenemos una forma precisa de determinar sus marcas de clase y esto dificulta los cálculos. En este cosa, con la información que contamos, trataremos de asignar de manera razonable una marca de clase para cada una de estas dos clases. Para la primera es más sencillo, puesto que la mayoría de las contrayentes menores de 15 años deben de contar con 14 años, asignando a esta clase la marca 14. Para la última clase la situación es más complicada. Ya que el número de matrimonios baja considerablemente al aumentar la edad de la contrayente, podemos suponer que esta situación se repite dentro de la última clase, es decir, que hubo más contrayentes cercanas a los 50 años que arriba de 70 años.


Así, de manera un poco arbitraria asignemos 60 como marca de la última clase. Ya habíamos observado que los valores divisorios a partir de la segunda clase son 15, 20,25,,,etc.

Las marcas de clase son entonces (15+20)/2 =17.5, (20+25)/2=22.5, etc.

En la siguiente tabla se han calculado los valores de x∙f y de x2 ∙f. Por ejemplo, para el primer vrenglón la clase de marca es x = 14, x2 = 142 = 196, la frecuencia es f = 9136, x ∙f =(14) (9136) y x2 ∙f = (196) (9136)= 1 790 656 .Los otro srenglones se obtienen de manera totalmente análoga.
La media en entonces
 
que corresponde a la edad promedio de una contrayente durante 1995. La desviación estándar es 
Para calcular la mediana debemos localizar la edad de la contrayente 658114/2 =329057. Sabemos que 9136+213773=222909 matrimonios donde la contrayente cuenta con 19 años o menos y que hay 222 909 +245 537 = 468 446 matrimonios donde la contrayente cuenta con 24 años o menos. Se tiene entonces que la mediana se localiza en la tercera clase, de 20 a 24 años cumplidos. El valor divisorio inferior de esta clase es 20, el intervalo de la clase es 5 y la frecuencia de la clase es 245 537. El número de datos faltantes dentro de la clase para alcanzar la mediana es la diferencia de la mitad total de los datos menos los datos acumulados hasta la clase anterior, esto es , 329 057-222 909= 106 148 . La proporción de matrimonios de la tercera clase antes de la mediana es entonces de 106148/245537=0.433. Por lo tanto la mediana es


20+5∙ 0.433 =22.165.

En general, si el valor divisorio inferior de la clase de la mediana es L, el intervalo de la clase es c, la frecuencia de la clase es f y el número de datos faltantes dentro de la clase de la mediana r, la mediana viene dada por


Como 22.165 años es aproximadamente 22 años y dos meses, sabemos entonces que en la mitad de los matrimonios en México durante 1995 la contrayente  tenía menos de 22 años y dos meses, y en la otra mitad la contrayente era mayor.

Para calcular los cuartiles podemos también utilizar la expresión de arriba, sólo que ahora hay que determinar dónde se tiene el 25% y el 75% de los datos. Debemos entonces estimar la edad de las 658114/4 =164528.5 y 3(658114/4) = 493585.5 contrayentes más jóvenes. Como sólo se trata de una aproximación no es necesario considerar números enteros o la media de los números enteros anterior  y posterior.

Calculemos primero el cuartil inferior. Las dos primeras clases contienen 9136 +213773= 222909datos. Como 9136 <164528.5<222909 sabemos que el cuartil inferior se localiza en la segunda clase. La segunda clase contiene 164528.5-9136 = 153392.5 datos antes del cuartil inferior, así que el cuartil inferior está dado por

Observemos que para este caso el valor divisorio de la segunda clase es L= 15 y el intervalo vuelce a ser c=5.


El cálculo del cuartil superior es totalmente análogo. Las tres primeras clases contienen 468446 datos y las cuatro primeras clases contienen 579209 datos, por lo que el dato 493585.5 está en la clase de los matrimonios de 25 a 29 años de edad de la contrayente. Los datos faltantes son ahora 493585.5-468446=25139.5 . Aplicando la fórmula otra vez obtenemos que el cuartil superior es
Los cuartiles son 18.635 y 26.135, que equivalen aproximadamente a 18 años 7 meses y a 26 años 2 meses. Esto significa que en un cuarto de los matrimonios de México en 1995 las contrayentes tenían menos de 18 años 7 meses y que los matrimonios con contrayentes mayores de 26 años 2 meses corresponden a la cuarta parte del total de matrimonios.

Ya observamos que cuando los intervalos de las clases son iguales, se puede obtener la mediana dividiendo el histograma en dos partes con áreas iguales. La base de los rectángulos es igual a 5, a excepción de la primera y la última clase que son abiertas. Para determinar la mediana en este caso debemos eliminar estas dos clases abiertas. El efecto de eliminar estas dos clases en la localización de la mediana es muy pequeño, ya que por un lado son pequeñas, y por otro, al ser semejantes en magnitud estamos eliminado aproximadamente el mismo número de matrimonios en el extremo izquierdo que en el extremo derecho. El siguiente histograma es relevante para determinar la mediana.

Matrimonios en 1995 por edad de la contrayente
Como todos los rectángulos tienen base 5, el área total de los rectángulos es igual a 5 veces el total de matrimonios con contrayente entre los 15 y 49 años cumplidos que es de 5 ∙ 639566 =3197830. La mitad del área es de 1598915. El primer  rectángulo tiene área 5 ∙ 213773=1068865 y el área del segundo es de 5 x 245 537 = 1227685. Como el área de los dos primeros rectángulos sobrepasa la mitad  del área total, la mediana se encuentra en la segunda clase. ¿Qué tanto le falta al área del primer rectángulo para alcanzar la mitad del área total? Esta área faltante es de 1598915-1068865=530050. La proporción del segundo rectángulo que constituye el área faltante es igual a

Por lo que el valor de la mediana es igual al valor divisorio inferior de la segunda clase más 0.432 veces el intervalo de la clase, esto es, 20 + (0.432)(5)=22.16 años, que ya observamos equivale a un poco menos de 22 años y dos meses.
En general, podemos encontrar la mediana de una distribución determinando primero la clase en la que se localiza. Si L es el valor divisorio de esta clase, c el intervalo de la clase, Ac el área de la clase y Af el área faltante, entonces la mediana está dada por

Las dificultades que tuvimos con las clases abiertas para aproximar la media y la mediana ilustran la razón de que  preferentemente estas clases tengan frecuencias pequeñas en relación con el resto de las clases.

domingo, 11 de marzo de 2012

0024.2 Medidas de tendencia central.

Supongamos que trabajamos en una fábrica de mangueras y que para poder competir en el mercado internacional es necesario que las mangueras satisfagan ciertas características técnicas. Si las pruebas a que debemos someter las mangueras son tan rigurosas y exigentes que al probar las mangueras estas se echan a perder, ¿cómo podemos garantizar a nuestros clientes la calidad de nuestro producto? Es claro que si decidimos probar toda la producción conoceríamos con exactitud la calidad de las mangueras, pero no tendríamos productos para vender. Una alternativa razonable consiste en probar tan sólo algunas de las mangueras, de tal forma que el costo del estudio de calidad no sea excesivo, pero que a la vez podamos saber que si el resto de la producción tiene la misma calidad, nuestro producto satisface o no satisface las características técnicas requeridas.

Los resultados técnicos que obtendríamos al someter algunas mangueras a estas pruebas rigurosas nos permiten determinar con certeza las características técnicas de sólo una parte del total de mangueras. Es conveniente entonces tener claro si los datos que estamos analizando corresponden al total de las observaciones, que es llamado la población, o a una parte de ellas, llamada muestra. Existen muchas situaciones donde la recopilación y el análisis de los datos se efectúan sobre una muestra y no sobre toda la población. Un ejemplo común donde los datos que obtenemos corresponden a unas muestras son las encuestas de intención de voto antes de una elección, donde sería muy costoso preguntar a cada uno de los electores por qué partido o candidato piensa votar. De hecho, en este caso no es posible conocer con precisión la población, que consiste de aquellos ciudadanos que efectivamente ejercen su voto el día de la elección.

Debido a que es muy importante distinguir en un problema estadístico si los datos corresponden a una muestra o a la población completa, veamos otro par de ejemplos que ilustren esta diferencia.

1.-Un laboratorio médico prueba un analgésico en 100 pacientes que sufren de migrañas. La muestra en este caso consiste de los 100 pacientes sometidos al tratamiento, mientras que la población estará constituida por todas aquellas personas que padezcan de migrañas y se sometan al mismo tratamiento con este analgésico.

2.-Una empresa de publicidad conoce los costos de producción de ocho comerciales para televisión. ¿Se trata de una muestra o de la población? La respuesta depende del uso que hagamos con estos datos. Si los datos los empleará el contador de la empresa para determinar el pago de los impuestos correspondientes a los ingresos por los ocho comerciales, entonces se trata de la población. Si los costos de estos comerciales se emplearán para estimar costos de comerciales que se hagan a futuro, entonces se trata de una muestra.

Cuando afirmamos que los sonorenses son más altos que los veracruzanos nos encontramos con que habrá sonorenses más altos que algunos veracruzanos pero también hay veracruzanos más altos que algunos sonorenses ¿Entonces tiene sentido una afirmación de este tipo?

Existe una medida que asociamos a un conjunto de datos y nos permite responder a las preguntas arriba planteadas, que es la media. La media de un conjunto de datos es lo que comúnmente llamamos el promedio, pero como la palabra promedio tiene otros significados, los estadísticos prefieren emplear la palabra media. La media de n números es simplemente su suma dividida por n.

En el caso de las califcaciones del examen de física la media es

La media de un conjunto de datos es fácil de calcular cuando el número de datos no es excesivo, pero afortunadamente con la ayuda de una hoja de cálculo es muy sencillo obtener la media, aun cuando el tamaño de la muestra o población sea grande. Debido a que tendremos que calcular la media de muchas clases de datos, es conveniente tener una fórmula que siempre podamos aplicar. Si representamos a los datos por variables digamos x 1, x2, x3,...xn, entonces el tamaño de la muestra es n. La media es entonces
Esta fórmula puede ser aplicada a cualquier conjunto de datos, y se abreviada un poco si utilizamos el símbolo
x
(que leemos "equis barra") para designar a la media de una muestra, y si además utilizamos el símbolo ∑ para describir la suma de una serie de datos, la expresión anterior queda así.
Donde ∑ x = x1 + x2 + x3 +...+ xn. Si se desea hacer explicícito el número de sumandos de la muestra, entonces se emplea el símbolo
La media de una población se define de la misma manera, pero se emplean símbolos diferentes: la letra griega μ (mu) para la media de la población y N para el tamaño de la población, de modo que

¿Son efectivamente más altos los sonorenses que los veracruzanos? Una manera de responder a esta pregunra consistiría en calcular la media de la altura de los sonorenses y después la media de las alturas de los veracruzanos y comparar estas medias.

La media es sin duda la medida de mayor uso para representar el medio o el centro de un conjunto de datos. Akgunas de las propiedades de la media son las siguientes:

1.-Puede ser siempre calculada para cualquier conjunto de datos numéricos.
2.-Cualquier conjunto de datos numéricos tienen una y sólo una media.
 3.-Puede ser empleada para un análisis estadístico posterior, como por ejemplo, las medios de vrios conjutos de datos pueden ser  (según sea el caso) combinadas para obtener la media de todos los datos.
4.-Es una muestra confiable en el sentido de que las medias de varias muestras de una población generalmente no difieren mucho.
5.-La media es sensible a valores extremos.

Para ilustrar la úlima propiedad de la media, la sensibilidad a los valores extremos, consideremos las edades a las que murieron los miembros de dos familias. Digamos que cada una de estas familias tiene nueve miembros y las edades a las que murieron son :

En cierta medida, los Pilongano y los Gómez son igualmente longevos. Las diferencias entre las dos familias están en los extremos, pues por un lado la bisabuela doña Gamucita Pilongano vivió hasta los 106 años de edad, mientras que los Gómez perdieron a un bebe de un año de edad. Como consecuencia de esto las medias de los años de vida de cada familia son diferentes.
Para evitar que algunos valores muy pequeños o muy grandes alteren el "centro " o la "mitad" de un conjunto de datos en ocasiones es preferible emplear otras medidas diferentes de la media. Una de estas medidas es la mediana, que se obtiene ordenando los datos y escogiendo el valor que está en medio, o la media de los dos valores centrales.


y en ambos casos 74 constituye la mediana de los años de vida de ambas familias.
Veamos ahora un ejemplo con un número par de datos. Si durante los diez partidos de un torneo de futbol un equipo anotó 3,2,0,3,2,1,1,4,7 y 3 goles ¿cuál es la mediana? Al ordenar los valores se tiene
0 1 1 2 2 3 3 3 4 7
y los valores centrales son 2 y 3, que ocupan los lugares 5 y 6 de la lista de 10 valores.
La mediana es entonces (2+3)/2 =2.5



Puesto que la mediana es el valor del dato central,tenemos que :
cuando n es par el conjunto de datos con valores menores a la mediana constituye el 50% de los datos, mientras que el conjunto de datos con valores mayores a la mediana constituye el otro 50%
 y cuando n es impar  el conjunto de datos  con valores menores o iguales a la mediana  constituirá el 50%  y los datos con valores mayores el otro 50% o bien puede también ser que  el conjunto de datos  con valores menores a la mediana  constituirá el 50%  y los datos con valores iguales o  mayores
a la mediana constituirán el otro 50%.
Cuando analizamos grandes cantidades de datos en ocasiones resulta  también interesante conocer el valor de los datos que determinan el primer 25 % de los datos y el 75% de los datos . A estos valores se les conoce como el cuartil inferior y el cuartil superior. Si  se tienen d datos, entonces el cuartil inferior es el valor del dato correspondiente al entero más cercano a n/4  y el cuartil superior es el valor del dato correspondiente al entero más cercano a 3n/4. Por ejemplo, si se tienen 739 datos, 739/4 =184.75, y el cuartil inferior estará dado  por el valor del dato 185, mientras que el cuartil superior es el dato 554, ya que (3  x  739)/4 = 554.25. En el caso en que en alguna de las fracciones n/4 o 3n /4 esté a la mitad entre dos números enteros, podemos tomar la media de estos datos como el correspondiente cuartil.
Por ejemplo, para calcular la mediana del examen de física debemos primero escribir las 30 calificaciones por orden ascendente; 3.9, 4.6 ,4.8,  5.2 ,5.5 ,5.8 ,5.9 ,6.1 ,6.3 ,6.6, 6.7 ,6.9,7.4, 7.4, 7.5 ,7.5, 7.6,7.8,7.9 , 8 ,8.1 8.3 ,8.5 ,8.8, 8.9 ,8.9 ,9 ,9.2 9.6,10. Los lugares 15 y 16 corresponden a kas calificaciones 7.5 y 7.5 , por lo que la mediana es 7.5. Como 30/4 = 7.5, para obtener el cuartil inferior calculamos la media de los datos 7 y 8: (5.9+6.1)/2 =6 . El último cuartil es la media de los datos 22 y 23: (8.3+8.5)/2 = 8.4. Sabemos entonces que la mitas de las calificaciones fueron inferiores o iguales a 7.5 y la otra mitad superiores o iguales a 7.5, y que además el 25% más bajo de las calificaciones fue superior o igual a 8.4.

Otra medida que se usa a veces para describir la "mitad " o la tendencia central de un conjunto de datos es la moda. Se define simplemente como el valor del dato que aparece con más frecuencia . 

La moda también se puede definir para distribuciones de frecuencia categóricas donde  tomamos como la moda a la clase que agrupa más datos. Supongamos, por ejemplo, que al realizar una encuesta para estudiar las preferencias  de aficionados a siete equipos de futbol en México se obtuvieron los resultados de la siguiente grafica barras. Ahí es facil apreciar que la barra más alta corresponde al Guadalajara con 960 seguidores, por lo que la moda (o decisión modal)es el Guadalajara.
Cuando buscamos promediar cantidades, a veces nos enfrentamos al hecho de que no todos los datos tienen la misma importancia o el mismo peso. Consideremos el caso de una empresa mensajeria  que cuenta con 32 vehículos para repartir paquetes. La siguiente tabla muestra cuántas unidades hay de cada tipo y cuál es su rendimiento por litro de gasolina
¿Cómo calcúlamos el rendimiento promedio que dan todos los vehiculos repartidores de la empresa?Es claro que si calculamos la media de los rendimientos, obtendríamos el rendimiento promedio como si la empresa contase con un auto de cada tipo, mientras que en este caso debemos de otorgar mayor peso a los Volswagen Sedán y a los Tsurus que son los más numerosos y menos peso a los Pick-up Nissan que únicamente son tres. Una manera natural consiste en contar cada rendimiento tantas veces como unidades del tipo haya, de modo que el rendimiento total será


Recordemos que cuando se tiene una expresión como la de arriba, efectuamos primero las operaciones dentro de los parentesis del númerador , después las sumas, y una vez hemos calculado el numerador procedemos a dividir.

Veamos otro ejemplo semejante. Una cooperativa de pescadores capturó en una semana 1.5 toneladas  de camarón, 3.4 toneladas de sierra, 2.9 toneladas de atún, 3.8 toneladas de bandera y 0.8 toneladas de dorado. Los precios a kis que se comercializó la pesca fueron $ 20 000.00 por tonelada de camarón, $ 6000.00 por tonelada de sierram $ 12 000 por tonelada de atún, $ 8 000.00 por tonelada de bandera y $ 14 000 por tonelada de dorado. ¿Cuál fue el precio promedio que recibieron por tonelada? De nuevo , lo más conveniente será multiplicar el precio de cada producto por la cantidad vendida durante la semana para obtener el ingreso total, y después dividir por el total de toneladas pescadas:



Así, el precio  promedio por tonelada fue de $ 10 225.80 .
En general para poder promediar estas cantidades que no tienen la misma importancia es necesario asignar a cada una un peso. Si los datos x1, x2, x3,... ,xn ,tienen pesos w1, w2, w3,... ,wn
su media ponderada está dada por

En el caso del rendimiento de los vehículos repartidores los pesos fueron el número de vehículos de cada tipo , mientras que en el caso de la cooperativa pesquera los pesos correspondieron a las toneladas vendidas de cada tipo de producto.

En general, la información contenida en los datos nos indica queé pesos debemos utilizar en la media ponderada. Un caso que se presenta con frecuencia es cuando las cantidades que queremos promediar difieren porcentualmente.

Consideremos, por ejemplo, a Doña Gamucita Pilongano que al enviudar invirtió  el 35% del seguro de vida de su marido en acciones de Telmex, el 25% en acciones de Cemex  y el 40% restante en Cetes.Si en cierto periodo las acciones de Telmex rindieron un beneficio de 4.5 %, las de Cemex el 3.6% y los Cetes el 3.9%, ¿cuál es el beneficio promedio que obtuvo doña gamucita en este periodo?Los pesos corresponden ahora a la distribución porcentual de la inversión de doña Gamucita, 35,25 y 40 que suman obviamente 100, así que el rendimiento promedio de la inversión  fue de

.