155 votos

Correlación de Pearson o de Spearman con datos no normales

Recibo esta pregunta con bastante frecuencia en mi trabajo de consultoría en estadísticas, por lo que pensé en publicarla aquí. Tengo una respuesta, que se muestra a continuación, pero estaba ansioso por escuchar lo que otros tengan que decir.

Pregunta: Si tienes dos variables que no siguen una distribución normal, ¿deberías utilizar el coeficiente de correlación de Spearman?

4 votos

¿Por qué no calcular y reportar ambos (r de Pearson y de Spearman)? Su diferencia (o falta de ella) proporcionará información adicional.

0 votos

Una pregunta que compara las suposiciones de distribución hechas cuando probamos la significancia de un coeficiente de regresión simple beta y cuando probamos el coeficiente de correlación de Pearson (numéricamente igual al beta) stats.stackexchange.com/q/181043/3277.

5 votos

La correlación de Pearson es lineal, la de Spearman es monótona, por lo que no son normalmente para el mismo propósito. El coeficiente de Pearson no necesita que asumas normalidad. Hay una prueba para ello que sí asume normalidad, pero no tienes solo esa opción.

116voto

Senseful Puntos 116

La correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias continuas. No asume normalidad, aunque sí asume varianzas finitas y covariancia finita. Cuando las variables son bivariadas normales, la correlación de Pearson proporciona una descripción completa de la asociación.

La correlación de Spearman se aplica a los rangos y proporciona una medida de la relación monótona entre dos variables aleatorias continuas. También es útil con datos ordinales y es resistente a valores atípicos (a diferencia de la correlación de Pearson).

La distribución de ambos coeficientes de correlación dependerá de la distribución subyacente, aunque ambos son asintóticamente normales debido al teorema del límite central.

19 votos

Pearson's $\rho$ no asume normalidad, pero solo es una medida exhaustiva de asociación si la distribución conjunta es normal multivariada. Dada la confusión que esta distinción genera, es posible que desees añadirla a tu respuesta.

0 votos

@kwak. Buen punto. Actualizaré la respuesta.

9 votos

¿Existe alguna fuente que se pueda citar para respaldar la afirmación anterior (r de Pearson no asume normalidad)? En este momento estamos teniendo el mismo argumento en nuestro departamento.

65voto

Berek Bryan Puntos 349

No olvides tau de Kendall! Roger Newson ha argumentado la superioridad del a de Kendall sobre la correlación de Spearman rS como una medida de correlación basada en rangos en un documento cuyo texto completo ahora está disponible en línea de forma gratuita:

Newson R. Parámetros detrás de las estadísticas "no paramétricas": tau de Kendall, D de Somers y diferencias de medianas. Revista Stata 2002; 2(1):45-64.

Hace referencia (en la p. 47) a Kendall & Gibbons (1990) argumentando que "...los intervalos de confianza para el rS de Spearman son menos confiables y menos interpretables que los intervalos de confianza para los -parámetros de Kendall, pero el rS de Spearman de muestra se calcula de forma mucho más fácil sin una computadora" (lo cual ya no es de mucha importancia, por supuesto).

Kendall, M. G. y J. D. Gibbons. 1990. Métodos de correlación de rangos. 5ª ed. Londres: Griffin.

7 votos

También soy un gran admirador de tau de Kendall. Pearson es demasiado sensible a puntos influyentes / valores atípicos para mi gusto, y aunque Spearman no sufre de este problema, personalmente encuentro que Kendall es más fácil de entender, interpretar y explicar que Spearman. Por supuesto, tu experiencia puede variar.

1 votos

Mi recuerdo de experiencia es que el tau de Kendall sigue siendo mucho más lento (en R) que el de Spearman. Esto puede ser importante si tu conjunto de datos es grande.

48voto

Eric Davis Puntos 1542

Desde una perspectiva aplicada, estoy más preocupado por elegir un enfoque que resuma la relación entre dos variables de una manera que se alinee con mi pregunta de investigación. Creo que determinar un método para obtener errores estándar y valores p es una pregunta que debería venir en segundo lugar. Incluso si eliges no depender de las asíntotas, siempre está la opción de bootstrap o cambiar las suposiciones de distribución.

Como regla general, prefiero la correlación de Pearson porque (a) generalmente se alinea más con mis intereses teóricos; (b) permite una comparabilidad más directa de los hallazgos entre estudios, porque la mayoría de los estudios en mi área informan la correlación de Pearson; y (c) en muchos entornos hay una diferencia mínima entre los coeficientes de correlación de Pearson y Spearman.

Sin embargo, hay situaciones en las que creo que la correlación de Pearson en variables en bruto es engañosa.

  • Atípicos: Los atípicos pueden tener una gran influencia en las correlaciones de Pearson. Muchos atípicos en entornos aplicados reflejan fallas de medición u otros factores a los que el modelo no está destinado a generalizar. Una opción es eliminar dichos atípicos. Los atípicos univariados no existen con el rho de Spearman porque todo se convierte en rangos. Por lo tanto, Spearman es más robusto.
  • Variables altamente sesgadas: Cuando se correlacionan variables sesgadas, especialmente variables altamente sesgadas, a menudo una transformación logarítmica u otra hace que la relación subyacente entre las dos variables sea más clara (por ejemplo, el tamaño del cerebro por el peso corporal de los animales). En tales entornos, puede ser que la métrica en bruto no sea la métrica más significativa de todos modos. El rho de Spearman tiene un efecto similar a la transformación al convertir ambas variables en rangos. Desde esta perspectiva, el rho de Spearman se puede ver como un enfoque rápido y sucio (o más positivamente, es menos subjetivo) en el que no tienes que pensar en transformaciones óptimas.

En ambos casos anteriores, aconsejaría a los investigadores considerar estrategias de ajuste (por ejemplo, transformaciones, eliminación/ajuste de atípicos) antes de aplicar la correlación de Pearson o usar el rho de Spearman.

0 votos

El problema con la transformación es que, en general, también transforma los errores asociados a cada punto, y por lo tanto, el peso. Y no resuelve el problema del valor atípico.

1 votos

El comentario anterior es desconcertante. La transformación a menudo doma los valores atípicos. Además, lo que pensar sobre los errores depende de la escala que elijas para el análisis. Si tiene sentido una escala logarítmica, por ejemplo, los errores aditivos en esa escala a menudo también tienen sentido.

15voto

Omar Kooheji Puntos 384

Actualizado

La pregunta nos pide elegir entre el método de Pearson y el método de Spearman cuando se cuestiona la normalidad. Limitado a esta preocupación, creo que el siguiente artículo debería informar la decisión de cualquiera:

Es bastante bueno y proporciona una encuesta de la considerable literatura, abarcando décadas, sobre este tema -- comenzando desde las "superficies mutiladas y distorsionadas" de Pearson y la robustez de la distribución de $r$. Al menos parte de la naturaleza contradictoria de los "hechos" radica en que gran parte de este trabajo se realizó antes de la llegada del poder informático -- lo que complicaba las cosas porque el tipo de no normalidad tenía que ser considerado y era difícil de examinar sin simulaciones.

El análisis de Kowalski concluye que la distribución de $r$ no es robusta en presencia de no normalidad y recomienda procedimientos alternativos. Todo el artículo es bastante informativo y se recomienda su lectura, pero salta a la conclusión muy breve al final del artículo para obtener un resumen.

Si se nos pide elegir entre uno de Spearman y Pearson cuando la normalidad se ve violada, la alternativa libre de distribución vale la pena defenderla, es decir, el método de Spearman.


Anteriormente ...

La correlación de Spearman es una medida de correlación basada en rangos; es no paramétrica y no se basa en una suposición de normalidad.

La distribución de muestreo para la correlación de Pearson asume normalidad; en particular, esto significa que aunque puedes calcularla, las conclusiones basadas en pruebas de significancia pueden no ser válidas.

Como señala Rob en los comentarios, con una muestra grande este no es un problema. Sin embargo, con muestras pequeñas, donde se viola la normalidad, se debería preferir la correlación de Spearman.

Actualización Reflexionando sobre los comentarios y las respuestas, parece que esto se reduce al debate habitual entre pruebas no paramétricas y paramétricas. Gran parte de la literatura, por ejemplo, en biostadística, no aborda muestras grandes. Generalmente no confío demasiado en las asintóticas. Quizás esté justificado en este caso, pero no me resulta evidente de inmediato.

3 votos

No. La correlación de Pearson NO asume normalidad. Es una estimación de la correlación entre dos variables aleatorias continuas y es un estimador consistente bajo condiciones relativamente generales. Incluso las pruebas basadas en la correlación de Pearson no requieren normalidad si las muestras son lo suficientemente grandes debido al TCL.

2 votos

Tengo la impresión de que Pearson se define siempre que las distribuciones subyacentes tengan varianzas y covarianzas finitas. Por lo tanto, la normalidad no es necesaria. Si las distribuciones subyacentes no son normales, la estadística de prueba puede tener una distribución diferente, pero eso es un problema secundario y no relevante para la pregunta en cuestión. ¿No es así?

0 votos

@Rob, @Srikant: Ciertamente, estaba pensando en pruebas de significancia.

6voto

woky Puntos 720

Creo que estas cifras (de Sensibilidad a Errores Graves y Varianza Asintótica) y la cita del documento a continuación lo harán un poco más claro:

introducir descripción de la imagen aquí

introducir descripción de la imagen aquí

"La medida de correlación de Kendall es más robusta y ligeramente más eficiente que la correlación de rangos de Spearman, por lo que es el estimador preferido desde ambos puntos de vista."

Fuente: Croux, C. and Dehon, C. (2010). Funciones de influencia de las medidas de correlación de Spearman y Kendall. Métodos y Aplicaciones Estadísticas, 19, 497-515.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X