155 votos

Correlación de Pearson o de Spearman con datos no normales

Recibo esta pregunta con bastante frecuencia en mi trabajo de consultoría en estadísticas, por lo que pensé en publicarla aquí. Tengo una respuesta, que se muestra a continuación, pero estaba ansioso por escuchar lo que otros tengan que decir.

Pregunta: Si tienes dos variables que no siguen una distribución normal, ¿deberías utilizar el coeficiente de correlación de Spearman?

4 votos

¿Por qué no calcular y reportar ambos (r de Pearson y de Spearman)? Su diferencia (o falta de ella) proporcionará información adicional.

0 votos

Una pregunta que compara las suposiciones de distribución hechas cuando probamos la significancia de un coeficiente de regresión simple beta y cuando probamos el coeficiente de correlación de Pearson (numéricamente igual al beta) stats.stackexchange.com/q/181043/3277.

5 votos

La correlación de Pearson es lineal, la de Spearman es monótona, por lo que no son normalmente para el mismo propósito. El coeficiente de Pearson no necesita que asumas normalidad. Hay una prueba para ello que sí asume normalidad, pero no tienes solo esa opción.

5voto

Xarnol Puntos 16

Aunque esta es una pregunta antigua, me gustaría contribuir con la observación (genial) de que el coeficiente de correlación de Pearson $\rho$ no es otra cosa que la pendiente de la línea de tendencia entre $Y$ y $X$ después de eliminar las medias y normalizar las escalas para $\sigma_Y$, es decir, después de eliminar las medias y normalizar para $\sigma_Y$, el coeficiente de correlación de Pearson $r$ es la solución de mínimos cuadrados de $\hat Y=X\hat\beta$ donde $\hat Y = Y / \sigma_Y$.

Esto lleva a una regla de decisión bastante sencilla entre los dos: Graficar $Y$ sobre $X$ (simple gráfico de dispersión) y agregar una línea de tendencia. Si la tendencia parece fuera de lugar, entonces no uses el coeficiente de correlación de Pearson $\rho$. Bonus: tienes la oportunidad de visualizar tus datos, lo cual nunca es malo.

Si no te sientes cómodo con el coeficiente de correlación de Pearson $\rho$, entonces el coeficiente de correlación de rango de Spearman hace esto un poco mejor porque reescala tanto el eje x como el eje y de una manera no lineal (codificación de rangos) y luego ajusta la línea de tendencia en el espacio incrustado (transformado). En la práctica, esto parece funcionar bien y mejora la robustez hacia valores atípicos o sesgados, como otros han señalado.

En teoría, pienso que el coeficiente de correlación de rango de Spearman es un poco gracioso porque la codificación de rangos es una transformación que mapea los números reales en una secuencia discreta de números. Ajustar una regresión lineal a números discretos no tiene sentido (son discretos), así que lo que está sucediendo es que volvemos a incrustar la secuencia en los números reales de nuevo usando su incrustación natural y ajustamos una regresión en ese espacio en su lugar. Parece funcionar lo suficientemente bien en la práctica, pero me resulta gracioso.

En lugar de usar el coeficiente de correlación de rango de Spearman, puede ser mejor comprometerse con la codificación de rangos y optar por el coeficiente de Kendall $\tau$; aunque perdamos la relación con el coeficiente de correlación de Pearson $\rho$.


Coeficiente de correlación de Pearson $\rho$ desde Mínimos Cuadrados

Podemos comenzar con el deseo de ajustar un modelo de regresión lineal $Y=X\hat\beta + b$ en nuestras observaciones utilizando mínimos cuadrados. Aquí $X$ es un vector de observaciones y $Y$ es otro vector de observaciones coincidentes. Si estamos dispuestos a hacer la suposición de que $X$ y $Y$ tenían sus medias eliminadas ($\mu_X=\mu_Y=0$, lo bastante fácil de hacer) entonces podemos reducir el modelo a $Y=X\hat\beta$. Para esto existe una solución en forma cerrada $\hat\beta=(X^TX)^{-1}X^TY$.

Bajo la notación vectorial $\text{Cov}(X, Y) = E[XY]-E[X]E[Y] = E[XY] = X^TY$ - se eliminaron las medias - y de manera similar $\sigma_X = \text{Var}(X, X) = \text{Cov}(X, X) = X^TX$. Si ahora reescribimos $\hat\beta$ en términos de $\text{Cov}$ y $\sigma_X$ obtenemos $\hat\beta = \sigma_X^{-1}\text{Cov}(X,Y) = \frac{\text{Cov}(X,Y)}{\sigma_X}$.

Sustituyendo esto de nuevo en el modelo y normalizando para $\sigma_Y$ resulta en $Y/\sigma_Y = \frac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y}X$, donde la pendiente es exactamente el coeficiente de correlación de Pearson $\rho$. $Y/\sigma_Y$ es la reescala esperada de $Y$, ya que estamos interesados en un coeficiente normalizado por la varianza.

1 votos

Fascinante, nunca me di cuenta de esta conexión. ¿Cómo es que Cov(X,Y) = E[XY] - E[X]E[Y]?

1 votos

@saeranv Es una de las maneras de definir covarianza (o se sigue rápidamente de la definición que elijas): es.wikipedia.org/wiki/Covarianza#Definición

0 votos

Gracias, tan obvio; debería haberlo resuelto por mí mismo. Tengo otra idea/pregunta: Estoy tratando de pensar en una razón intuitiva de por qué $Y$ es igual a $Cov(X,Y)$ normalizado por $\sigma_X$ pero no por $\sigma_Y. Sería preciso decir que la regresión es igual a los vectores de características de $X$ reducidos por un "factor de ángulo" entre $X$ e $Y$ (dado que $X \cdot Y = cos(theta_{XY})$ y luego escalado por la desviación estándar de $Y?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X