domingo, 21 de octubre de 2012

El coeficiente de correlación.

Ya observamos que la recta de mínimos cuadrados es la mejor recta que ajusta a un conjunto de datos y es interesante preguntarnos qué tan bueno es este ajuste. Es claro que graficando los puntos y la recta podemos tener una idea de cómo resulta el ajuste. Existe un índice, el coeficiente de correlación, que expresa numéricamente que tan bueno resulta el ajuste  de la recta a los datos, y también representa una medida de que tanto los valores de x y los de y se determinan mutuamente. Este coeficiente se denota por r y viene dado por la fórmula
$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 }   \sqrt[]{n  |{\sum y ^2} |-(\sum y)^2  }}$
El numerador de esta expresión es el mismo numerador de la pendiente de la recta de mínimos cuadrados y la expresión dentro de la primera raíz en el denominador es también igual al denominador de la pendiente de la recta de mínimos cuadrados. La única cantidad que no tenemos a la mano es la suma de los valores de y, $\sum y^2$.

El Valor de r siempre varía entre 1 y -1 , de hecho r tiene siempre el mismo signno de la pendiente de la recta de mínimos cuadrados. Entre más cercanos se encuentren los puntos a la recta de mínimos cuadrados, la variable x determina más a la variable y , y el coeficiente r se acerca más a 1 o -1 ;mientras que cuando la relación entre los valores y los de y es escasa, el coeficiente r se acerca más a 0. En la siguiente figura tenemos conjuntos de datos correlacionados positivamente (r < 0 ), negativamente (r > 0) y no relacionados (r= 0)
En el post anterior analizamos la evolución de la productividad en la industria manufacturera y el crecimiento de la población en México. Calculemos ahora los coeficientes de correlación de estos ejemplos. Necesitamos antes calcular el valor de $\sum y^2$. Para el caso de la productividad, $\sum y^2$.= $(88.5) ^2 +…+(106.3) ^2076788.1$.

Por lo tanto,

$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 }   \sqrt[]{n  |{\sum y ^2} |-(\sum y)^2  }}$

$=\frac{869.2}{\sqrt[]{336}\sqrt[]{8(76788.1)-(782.3)^2}} =0.986$

Para la población de México, $\sum y^2$= (25.8) ^2 + … + (93.0) ^2= 23911.6$.
 Así,

$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 }   \sqrt[]{n  |{\sum y ^2} |-(\sum y)^2  }}$

$=\frac{13764.5}{\sqrt[]{9125}\sqrt[]{6(23911.6)-(349.9)^2}} =0.993$

Observemos que para obtener los coeficientes de correlación empleamos algunos de los cálculos ya hechos para determinar la pendiente de la recta de mínimos cuadrados. En ambos casos el coeficiente resultó positivo (como era de esperarse por las pendientes de las rectas de mínimos cuadrados) y muy cercano a 1, de modo que se tiene una estrecha relación entre el tiempo y la productividad, así como entre el tiempo y la población. Podemos afirmar que de continuar las tendencias económicas, nuestras estimaciones sobre la productividad son confiables, y de igual modo, si no varía sustancialmente la tasa de crecimiento, nuestras predicciones sobre la población de México también son bastante aceptables.

Analicemos un último ejemplo. Un laboratorio investiga la efectividad de un medicamento para tratar el dolor y obtiene los siguientes porcentajes de alivio en relación a la dosis.

Después de elaborar la tabla correspondiente, llegamos a $\sum  x =55 , $\sum  y =504.4, $\sum  x^2 =385 , $\sum xy =2453.6 y   $\sum y^2 = 36446 $. Así que la recta de mínimos cuadrados tiene
$m =\frac{n(\sum xy{})-(\sum x)(\sum y)}{n\left |{ \sum_ x^2{}}\right | -(\sum x)^2}$
$=\frac{10(2453.6)-(55)(504.4)}{10(385)-(55)^2}=-3.89$

y
$b= \frac{(\sum{y})\left |{\sum x^2}\right |-(\sum x)(\sum xy)}{n \left |{\sum x^2}\right |-(\sum x)^2} $
$=\frac{(504.4)(385)-(55)(2453.6)}{825}=71.8$

Sin embargo, el coeficiente de correlación es

$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 }   \sqrt[]{n  |{\sum y ^2} |-(\sum y)^2  }}$

$=\frac{-3206}{\sqrt[]{825}\sqrt[]{10(36446)-(504.4)^2}} = -0.336$

y ahora la relación entre la dosis de la medicina y el porcentaje de alivio es muy limitada. No es conveniente hacer estimaciones o predicciones con la recta de mínimos cuadrados. En la figura podemos apreciar que efectivamente existe una gran variabilidad de los datos y la recta de mínimos cuadrados y = -3.89 x  +71.8.

No hay comentarios: