9 votos

¿Por qué es una correlación de Pearson de filas válido a pesar de la asunción de normalidad?

Actualmente estoy leyendo en los supuestos de correlaciones de Pearson. Un supuesto importante para el posterior t-test parece ser que ambas variables provienen de distribuciones normales; si no, entonces el uso de medidas alternativas, tales como la rho de Spearman es defendido. La correlación de Spearman es calculada como la correlación de Pearson, utilizando sólo las filas de X y de y en lugar de X y de y a sí mismos, ¿correcto?

Mi pregunta es: Si las variables de entrada en una correlación de Pearson necesidad de una distribución normal, ¿por qué es el cálculo de la correlación de Spearman válido aunque las variables de entrada son los rangos? Mi filas ciertamente no provienen de distribuciones normales...

La única explicación que me han llegado hasta ahora es que la rho de la significación puede ser probado de manera diferente de la de la correlación de Pearson, t-test (de una manera que no requiere de la normalidad), pero hasta ahora no he encontrado ninguna fórmula. Sin embargo, cuando me encontré con un par de ejemplos, los p-valores de rho y para la prueba de t de la correlación de Pearson de filas siempre coincidentes, salvo por los últimos dígitos. Para mí, esto no se ve como una groundbreakingly procedimiento diferente.

Cualquier explicaciones e ideas que podría tener sería apreciado!

7voto

AdamSane Puntos 1825

La normalidad no es necesario para calcular una correlación de Pearson; es sólo que algunas formas de la inferencia acerca de la correspondiente cantidad de la población se basan en la normal supuestos (CIs y las pruebas de hipótesis).

Si usted no tiene a la normalidad, las propiedades de esa forma particular de inferencia no se puede sostener.

En el caso de la correlación de Spearman, que no tienen la normalidad, pero eso está bien porque la inferencia de los cálculos de la correlación de Spearman (tales como la prueba de hipótesis) no se basan en un supuesto de normalidad.

Derivan basa en un conjunto de pares de filas de una continua bivariante de distribución; en este caso, la prueba de hipótesis se utiliza la permutación de distribución de la prueba estadística basada en las filas.

Cuando la costumbre supuestos para la inferencia con la correlación de Pearson, mantenga pulsado el botón (bivariante de la normalidad) la correlación de Spearman es generalmente de muy cerca (a pesar de que en promedio un poco más cerca de 0).

(Así que cuando usted podría utilizar la prueba de Pearson, Spearman a menudo lo hace bastante bien. Si usted tenía casi bivariado de datos normal, aparte de algunos contaminación con algún otro proceso (que causó outliers), de los Lanceros, sería un modo más sólido para la estimación de la correlación en el incontaminada de distribución.)

2voto

Krishna Thota Puntos 115

cuando me encontré con un par de ejemplos, los p-valores de rho y para la prueba de t de la correlación de Pearson de filas siempre coincidentes, salvo por los últimos dígitos

Así que he estado corriendo el mal ejemplos a continuación!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

Vectores a y b de buena, pero lejos de ser perfecto lineal (Pearson) de correlación. Sin embargo, tienen perfecta correlación por rangos. Ver a Spearman $\rho$, en este caso, no importa si el último dígito de la b 8.1, 9, 90 o 9000 (¡inténtelo!), sólo importa si es de más de 8. Eso es lo que diferencia la correlación de rangos hace.

Por el contrario, mientras a y b perfecta correlación por rangos, su coeficiente de correlación de Pearson es menor que 1. Esto muestra que la correlación de Pearson no se refleja en sus filas.
Una correlación de Pearson refleja una función lineal, una correlación por rangos simplemente una forma monotónica. En el caso de la normal de datos, los dos se parecen mucho a unos de otros, y sospecho que es por eso que tus datos no muestran grandes diferencias entre Spearman y Pearson.

Para un ejemplo práctico, considere la siguiente; quiero ver si más alto de personas que pesan más. Sí, es una pregunta tonta ... pero acaba de asumir que esto es lo que te importa. Ahora, la masa no se escala linealmente con el peso, la estatura de las personas también son más amplios que los pequeños de la gente; así que el peso no es lineal en función de la altura. Alguien que es 10% más alto de lo que es (en promedio) más de 10% más pesado. Esta es la razón por la que el cuerpo/el índice de masa se utiliza el cubo en el denominador.
En consecuencia, se podría suponer una correlación lineal erróneamente reflejan la altura/peso de la relación. En contraste, la correlación por rangos es insensible a los molestos leyes de la física y la biología en este caso; por lo que no reflejan si a la gente a crecer más pesado linealmente a medida que ganan en altura, simplemente refleja si las personas más altas (de mayor rango en una escala) son más pesados (de mayor rango en la otra escala).

Más típico ejemplo podría ser la de Likert, como el cuestionario de las clasificaciones, como la gente de calificación de algo como "perfecto/buena/buena/mediocre/malo/malo. "perfecto" está tan lejos de ser "decente" como "decente" es el "mal" en la escala, pero ¿realmente podemos decir que la distancia entre los dos es la misma? Una correlación lineal no es necesariamente apropiado. Rango de correlación es más natural.

Para abordar de manera más directa a tu pregunta: no, p valores de Pearson y de Spearman correlaciones no debe ser calculado de manera diferente. Mucho es diferente entre los dos, conceptualmente, así como numéricamente, pero si el estadístico de prueba es equivalente, el p valor será equivalente.

Sobre la cuestión de la suposición de normalidad en la correlación de Pearson, ver esto.
De manera más general, otras personas han elaborado mucho mejor que yo sobre el tema de la paramétrico o no paramétrico de correlaciones (ver también aquí), y lo que esto significa con respecto a la distribución de la hipótesis.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X