$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 } \sqrt[]{n |{\sum y ^2} |-(\sum y)^2 }}$
El numerador de esta expresión es el mismo numerador de la pendiente de la recta de mínimos cuadrados y la expresión dentro de la primera raíz en el denominador es también igual al denominador de la pendiente de la recta de mínimos cuadrados. La única cantidad que no tenemos a la mano es la suma de los valores de y, $\sum y^2$.
El Valor de r siempre varía entre 1 y -1 , de hecho r tiene siempre el mismo signno de la pendiente de la recta de mínimos cuadrados. Entre más cercanos se encuentren los puntos a la recta de mínimos cuadrados, la variable x determina más a la variable y , y el coeficiente r se acerca más a 1 o -1 ;mientras que cuando la relación entre los valores y los de y es escasa, el coeficiente r se acerca más a 0. En la siguiente figura tenemos conjuntos de datos correlacionados positivamente (r < 0 ), negativamente (r > 0) y no relacionados (r= 0)
En el post anterior analizamos la evolución de la productividad en la industria manufacturera y el crecimiento de la población en México. Calculemos ahora los coeficientes de correlación de estos ejemplos. Necesitamos antes calcular el valor de $\sum y^2$. Para el caso de la productividad, $\sum y^2$.= $(88.5) ^2 +…+(106.3) ^2076788.1$.
Por lo tanto,
$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 } \sqrt[]{n |{\sum y ^2} |-(\sum y)^2 }}$
$=\frac{869.2}{\sqrt[]{336}\sqrt[]{8(76788.1)-(782.3)^2}} =0.986$
$=\frac{869.2}{\sqrt[]{336}\sqrt[]{8(76788.1)-(782.3)^2}} =0.986$
Para la población de México, $\sum y^2$= (25.8) ^2 + … + (93.0) ^2= 23911.6$.
Así,
Así,
$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 } \sqrt[]{n |{\sum y ^2} |-(\sum y)^2 }}$
$=\frac{13764.5}{\sqrt[]{9125}\sqrt[]{6(23911.6)-(349.9)^2}} =0.993$
$=\frac{13764.5}{\sqrt[]{9125}\sqrt[]{6(23911.6)-(349.9)^2}} =0.993$
Analicemos un último ejemplo. Un laboratorio investiga la efectividad de un medicamento para tratar el dolor y obtiene los siguientes porcentajes de alivio en relación a la dosis.
Después de elaborar la tabla correspondiente, llegamos a $\sum x =55 , $\sum
y =504.4, $\sum x^2 =385 , $\sum
xy =2453.6 y $\sum y^2 = 36446 $. Así
que la recta de mínimos cuadrados tiene
Sin embargo, el coeficiente de correlación es
$r=\frac{n (\sum xy)- (\sum x)(\sum y)}{\sqrt[]{n |{\sum x ^2} |-(\sum x)^2 } \sqrt[]{n |{\sum y ^2} |-(\sum y)^2 }}$
$=\frac{-3206}{\sqrt[]{825}\sqrt[]{10(36446)-(504.4)^2}} = -0.336$
y ahora la relación entre la dosis de la medicina y el porcentaje de alivio es muy limitada. No es conveniente hacer estimaciones o predicciones con la recta de mínimos cuadrados. En la figura podemos apreciar que efectivamente existe una gran variabilidad de los datos y la recta de mínimos cuadrados y = -3.89 x +71.8.
No hay comentarios:
Publicar un comentario