Correlación de Pearson o de Spearman con datos no normales

Question

Correlación de Pearson o de Spearman con datos no normales

Preguntado el 19 de Octubre, 2010: Cuando se hizo la pregunta
226625 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Recibo esta pregunta con bastante frecuencia en mi trabajo de consultoría en estadísticas, por lo que pensé en publicarla aquí. Tengo una respuesta, que se muestra a continuación, pero estaba ansioso por escuchar lo que otros tengan que decir.

Pregunta: Si tienes dos variables que no siguen una distribución normal, ¿deberías utilizar el coeficiente de correlación de Spearman?

Preguntado el 19 de Octubre, 2010 por Eric Davis

4 votos

¿Por qué no calcular y reportar ambos (r de Pearson y de Spearman)? Su diferencia (o falta de ella) proporcionará información adicional.

Comentado el 9 de Septiembre, 2015 por Usuario no registrado

0 votos

Una pregunta que compara las suposiciones de distribución hechas cuando probamos la significancia de un coeficiente de regresión simple beta y cuando probamos el coeficiente de correlación de Pearson (numéricamente igual al beta) stats.stackexchange.com/q/181043/3277.

Comentado el 29 de Noviembre, 2015 por Uri

5 votos

La correlación de Pearson es lineal, la de Spearman es monótona, por lo que no son normalmente para el mismo propósito. El coeficiente de Pearson no necesita que asumas normalidad. Hay una prueba para ello que sí asume normalidad, pero no tienes solo esa opción.

Comentado el 24 de Febrero, 2020 por AdamSane

Answer 1

1 Respuestas

Answer 2

5voto

Xarnol Puntos 16

Aunque esta es una pregunta antigua, me gustaría contribuir con la observación (genial) de que el coeficiente de correlación de Pearson $\rho$ no es otra cosa que la pendiente de la línea de tendencia entre $Y$ y $X$ después de eliminar las medias y normalizar las escalas para $\sigma_Y$, es decir, después de eliminar las medias y normalizar para $\sigma_Y$, el coeficiente de correlación de Pearson $r$ es la solución de mínimos cuadrados de $\hat Y=X\hat\beta$ donde $\hat Y = Y / \sigma_Y$.

Esto lleva a una regla de decisión bastante sencilla entre los dos: Graficar $Y$ sobre $X$ (simple gráfico de dispersión) y agregar una línea de tendencia. Si la tendencia parece fuera de lugar, entonces no uses el coeficiente de correlación de Pearson $\rho$. Bonus: tienes la oportunidad de visualizar tus datos, lo cual nunca es malo.

Si no te sientes cómodo con el coeficiente de correlación de Pearson $\rho$, entonces el coeficiente de correlación de rango de Spearman hace esto un poco mejor porque reescala tanto el eje x como el eje y de una manera no lineal (codificación de rangos) y luego ajusta la línea de tendencia en el espacio incrustado (transformado). En la práctica, esto parece funcionar bien y mejora la robustez hacia valores atípicos o sesgados, como otros han señalado.

En teoría, pienso que el coeficiente de correlación de rango de Spearman es un poco gracioso porque la codificación de rangos es una transformación que mapea los números reales en una secuencia discreta de números. Ajustar una regresión lineal a números discretos no tiene sentido (son discretos), así que lo que está sucediendo es que volvemos a incrustar la secuencia en los números reales de nuevo usando su incrustación natural y ajustamos una regresión en ese espacio en su lugar. Parece funcionar lo suficientemente bien en la práctica, pero me resulta gracioso.

En lugar de usar el coeficiente de correlación de rango de Spearman, puede ser mejor comprometerse con la codificación de rangos y optar por el coeficiente de Kendall $\tau$; aunque perdamos la relación con el coeficiente de correlación de Pearson $\rho$.

Coeficiente de correlación de Pearson $\rho$ desde Mínimos Cuadrados

Podemos comenzar con el deseo de ajustar un modelo de regresión lineal $Y=X\hat\beta + b$ en nuestras observaciones utilizando mínimos cuadrados. Aquí $X$ es un vector de observaciones y $Y$ es otro vector de observaciones coincidentes. Si estamos dispuestos a hacer la suposición de que $X$ y $Y$ tenían sus medias eliminadas ($\mu_X=\mu_Y=0$, lo bastante fácil de hacer) entonces podemos reducir el modelo a $Y=X\hat\beta$. Para esto existe una solución en forma cerrada $\hat\beta=(X^TX)^{-1}X^TY$.

Bajo la notación vectorial $\text{Cov}(X, Y) = E[XY]-E[X]E[Y] = E[XY] = X^TY$ - se eliminaron las medias - y de manera similar $\sigma_X = \text{Var}(X, X) = \text{Cov}(X, X) = X^TX$. Si ahora reescribimos $\hat\beta$ en términos de $\text{Cov}$ y $\sigma_X$ obtenemos $\hat\beta = \sigma_X^{-1}\text{Cov}(X,Y) = \frac{\text{Cov}(X,Y)}{\sigma_X}$.

Sustituyendo esto de nuevo en el modelo y normalizando para $\sigma_Y$ resulta en $Y/\sigma_Y = \frac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y}X$, donde la pendiente es exactamente el coeficiente de correlación de Pearson $\rho$. $Y/\sigma_Y$ es la reescala esperada de $Y$, ya que estamos interesados en un coeficiente normalizado por la varianza.

Respondido el 7 de Junio, 2021 por Xarnol (16 Puntos )

1 votos

Fascinante, nunca me di cuenta de esta conexión. ¿Cómo es que Cov(X,Y) = E[XY] - E[X]E[Y]?

Comentado el 22 de Julio, 2021 por geoffa

1 votos

@saeranv Es una de las maneras de definir covarianza (o se sigue rápidamente de la definición que elijas): es.wikipedia.org/wiki/Covarianza#Definición

Comentado el 22 de Julio, 2021 por Xarnol

0 votos

Gracias, tan obvio; debería haberlo resuelto por mí mismo. Tengo otra idea/pregunta: Estoy tratando de pensar en una razón intuitiva de por qué $Y$ es igual a $Cov(X,Y)$ normalizado por $\sigma_X$ pero no por $\sigma_Y. Sería preciso decir que la regresión es igual a los vectores de características de $X$ reducidos por un "factor de ángulo" entre $X$ e $Y$ (dado que $X \cdot Y = cos(theta_{XY})$ y luego escalado por la desviación estándar de $Y?

Comentado el 23 de Julio, 2021 por geoffa

Mostrar 1 comentarios más

Correlación de Pearson o de Spearman con datos no normales

Respuesta

Coeficiente de correlación de Pearson $\rho$ desde Mínimos Cuadrados

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Correlación de Pearson o de Spearman con datos no normales

Respuesta

Coeficiente de correlación de Pearson $\rho$ desde Mínimos Cuadrados

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: