Processing math: 100%

20 votos

Demostrar la equivalencia de las siguientes dos fórmulas de correlación de Spearman

De wikipedia, análisis de correlación de Spearman se calcula mediante la conversión de las variables de Xi Yi en el ranking de las variables de xiyi, y, a continuación, el cálculo de correlación de Pearson entre el clasificado variables:

Calculate Spearman via wikipedia

Sin embargo, el artículo continúa diciendo que si no hay lazos entre las variablesXiYi, la fórmula anterior es equivalente a

second formula to calculate Spearman

donde di=yixi, la diferencia en los rangos.

Alguien puede dar una prueba de esto, por favor? No tengo acceso a los libros de texto que hace referencia el artículo de la wikipedia.

21voto

AdamSane Puntos 1825

ρ=i(xiˉx)(yiˉy)i(xiˉx)2i(yiˉy)2

Ya no hay lazos, el x's y y's consiste en los enteros de 1 nincluido.

Por lo tanto podemos reescribir el denominador:

i(xiˉx)(yiˉy)i(xiˉx)2

Pero el denominador es sólo una función de n:

i(xiˉx)2=ix2inˉx2=n(n+1)(2n+1)6n((n+1)2)2=n(n+1)((2n+1)6(n+1)4)=n(n+1)((8n+46n6)24)=n(n+1)((n1)12)=n(n21)12

Ahora veamos el numerador:

i(xiˉx)(yiˉy)=ixi(yiˉy)iˉx(yiˉy)=ixiyiˉyixiˉxiyi+nˉxˉy=ixiyinˉxˉy=ixiyin(n+12)2=ixiyin(n+1)123(n+1)=n(n+1)12.(3(n+1))+ixiyi=n(n+1)12.[(n1)(4n+2)]+ixiyi=n(n+1)(n1)12n(n+1)(2n+1)/6+ixiyi=n(n+1)(n1)12ix2i+ixiyi=n(n+1)(n1)12i(x2i+y2i)/2+ixiyi=n(n+1)(n1)12i(x2i2xiyi+y2i)/2=n(n+1)(n1)12i(xiyi)2/2=n(n21)12d2i/2

Numerador/Denominador

a=n(n+1)(n1)/12d2i/2n(n21)/12=n(n21)/12d2i/2n(n21)/12=16d2in(n21).

Por lo tanto

ρ=16d2in(n21).

11voto

Uri Puntos 111

Vemos que en la segunda fórmula no aparece la distancia Euclídea al cuadrado entre los dos (en el puesto) variables: D2=Σd2i. La intuición decisiva en el inicio será la forma en que D2 podría estar relacionado con la r. Es claramente relacionados a través de el teorema del coseno. Si tenemos dos variables centrado, entonces el coseno en el vinculado teorema de la fórmula es igual a r (puede ser demostrado fácilmente, vamos a tomar aquí como se concede). Y h2 (el cuadrado de la norma Euclídea) es Nσ2, la suma de cuadrados en un centrada en la variable. Por lo que el teorema de la fórmula se parece a esto: D2xy=Nσ2x+Nσ2y2NσxNσyr. Por favor, tenga en cuenta también otra cosa importante (que pueden ser probadas por separado): Cuando los datos son los rangos, D2 es el mismo para el centrado y no centrada en los datos.

Además, puesto que las dos variables se clasificaron, sus varianzas son iguales, σx=σy=σ, lo D2=2Nσ22Nσ2r.

r=1D22Nσ2. Recordemos que clasificó a los datos provienen de una distribución uniforme discreta tener varianza (N21)/12. Sustituyendo en la fórmula de hojas de r=16D2N(N21).

8voto

jldugger Puntos 7490

El álgebra es más sencillo de lo que podría parecer a primera vista.

En mi humilde opinión, hay poco beneficio o la penetración alcanzada por machacar las manipulaciones algebraicas. En su lugar, una verdadera identidad simple muestra por qué el cuadrado de las diferencias puede ser utilizado para expresar (Pearson habitual) coeficiente de correlación. Aplicando esto al caso especial en el que los datos son rangos produce el resultado. Exhibe la hasta ahora misteriosa coeficiente de

6n(n21)

como la mitad de la inversa de la varianza de las filas 1,2,,n. (Cuando los lazos están presentes, este coeficiente adquiere una fórmula más complicada, pero todavía ser la mitad de la inversa de la varianza de los rangos asignados a los datos).

Una vez que usted haya visto y entendido esto, la fórmula se convierte en memorable. Similar (pero más complejos), las fórmulas que se encargan de lazos, se muestran en estadística no paramétrica pruebas, como la de Wilcoxon rank sum test, o aparecen en la estadística espacial (como el de Moran I, Geary C, y otros) se convierten al instante comprensible.


Considere la posibilidad de cualquier conjunto de pares de datos (Xi,Yi), con los medios de ˉX ˉY y las varianzas de las s2Xs2Y. Por recentering las variables en sus medios de ˉX ˉY y el uso de sus desviaciones estándar s2 sY como unidades de medida, los datos serán re-expresado en términos de la estandarización de los valores de

(xi,yi)=(XiˉXsX,YiˉYsY).

Por definición, el coeficiente de correlación de Pearson de los datos originales es el producto medio de la estandarización de los valores,

ρ=1nni=1xiyi.

La Polarización de la Identidad se relaciona productos a cuadrados. Para dos números de x y afirma

xy=12(x2+y2(xy)2),

que se comprueba fácilmente. Aplicando esto a cada término de la suma da

ρ=1nni=112(x2i+y2i(xiyi)2).

Debido a que el xi yi han sido estandarizados, el promedio de los cuadrados son la unidad, de donde

ρ=12(1+11nni=1(xiyi)2)=112(1nni=1(xiyi)2).

El coeficiente de correlación difiere de su valor máximo posible, 1, por la mitad de la media del cuadrado de la diferencia de los datos estandarizados.

Esta es una fórmula universal para la correlación, válido, no importa lo que los datos originales fueron (siempre sólo que ambas variables tienen un valor distinto de cero desviaciones estándar). (Fieles lectores de este sitio reconocerá esto como está estrechamente relacionada con la caracterización geométrica de la covarianza se describe y se ilustra en ¿Cómo explicar la covarianza para alguien que entiende sólo la media?.)


En el caso especial donde la Xi Yi son distintos rangos, cada uno es una permutación de la misma secuencia de números de 1,2,,n. Por lo tanto ˉX=ˉY=(n+1)/2 y, con un poco de cálculo nos encontramos

s2X=s2Y=1nni=1(i(n+1)/2)2=n2112

(que, por suerte, es distinto de cero cada vez que n>1). Por lo tanto

(xiyi)2=((Xi(n+1)/2)(Yi(n+1)/2))2(n21)/12=12(XiYi)2n21.

Este bonito simplificación se produjo porque el Xi Yi tienen la misma media y desviación estándar: la diferencia de sus medios, por lo tanto desapareció y el producto sXsY se convirtió s2X que no implica raíces cuadradas.

Conectando en la fórmula para ρ da

ρ=16n(n21)ni=1(XiYi)2.

7voto

Silverfish Puntos 6909

Los estudiantes de secundaria pueden ver el PMCC y de correlación de Spearman de las fórmulas de años antes de que el álgebra habilidades para manipular la notación sigma, a pesar de que puede conocer perfectamente el método de diferencias finitas para la deducción de la ecuación polinómica para una secuencia. Así, he tratado de escribir una "high school" a prueba de equivalencia: encontrar el denominador usando diferencias finitas, y minimizar la manipulación algebraica de la suma en el numerador. Dependiendo de los estudiantes de la prueba que se presenta, puede que prefieren este enfoque para el numerador, pero se combinan con más método convencional para el denominador.

Denominador, i(xiˉx)2i(yiˉy)2

Sin ataduras, los datos son los rangos de {1,2,,n} en un poco de orden, por lo que es fácil demostrar a ˉx=n+12. Podemos cambiar el orden de la suma de Sxx=ni=1(xiˉx)2=nk=1(kn+12)2, aunque con menor grado de los estudiantes probablemente sería escribir esta suma de manera explícita en lugar de en notación sigma. La suma de una ecuación cuadrática en k será cúbicos en n, un hecho que los estudiantes se familiaricen con el método de diferencias finitas pueden captar intuitivamente: la diferenciación de un cúbicos produce una ecuación cuadrática, por ello la suma de una ecuación cuadrática produce un cúbicos. La determinación de los coeficientes de la cúbico f(n) es sencillo si los estudiantes son cómodos de manipular Σ notación y saber (y recordar!) las fórmulas para nk=1knk=1k2. Pero también puede ser deducido utilizando diferencias finitas, de la siguiente manera.

Al n=1, el conjunto de datos es sólo {1}, ˉx=1, por lo f(1)=(11)2=0.

Para n=2, los datos son {1,2}, ˉx=1.5, por lo f(2)=(11.5)2+(21.5)2=0.5.

Para n=3, los datos son {1,2,3}, ˉx=2, por lo f(3)=(12)2+(22)2+(32)2=2.

Estos cálculos son bastante breve, y ayudar a reforzar lo que la notación ni=1(xiˉx)2 medios, y en corto fin de producir, de la diferencia finita de la tabla.

Finite difference table for Sxx

Podemos obtener los coeficientes de f(n) por arranque el método de diferencias finitas como se indica en los enlaces de arriba. Por ejemplo, la constante tercer diferencias indican que nuestra polinomio es de hecho cúbicos, con los principales coeficiente de 0.53!=112. Hay un par de trucos para minimizar la monotonía: un bien conocido es el de utilizar la normativa común de las diferencias para extender la secuencia de vuelta a n=0, como el conocimiento de f(0) inmediatamente da el coeficiente constante. Otra es tratar de extender la secuencia para ver si f(n) es cero para un entero n - por ejemplo, si la secuencia había sido positiva, pero decreciente, valdría la pena ampliar rightwards a ver si podemos "coger un root", ya que esto hace que la factorización más fácil después. En nuestro caso, la función parece flotar en torno a valores bajos al n es pequeña, así que vamos a extender aún más hacia la izquierda.

Extended finite difference table for Sxx

Aha! Resulta que nos han sorprendido a todos los tres raíces: f(1)=f(0)=f(1)=0. Por lo que el polinomio tiene factores de (n+1), n, y (n1). Desde que fue cúbicos debe ser de la forma:

f(n)=an(n+1)(n1)

Podemos ver que a debe ser el coeficiente de n3 que ya se ha decidido a ser 112. Como alternativa, debido a f(2)=0.5 tenemos a(2)(3)(1)=0.5, lo que lleva a la misma conclusión. La expansión de la diferencia de dos cuadrados:

Sxx=n(n21)12

Desde el mismo argumento se aplica a Syy, el denominador es SxxSyy=S2xx=Sxx y hemos terminado. Haciendo caso omiso de mi exposición, este método es sorprendentemente corto. Si uno puede reconocer que el polinomio es cúbico, sólo es necesario para calcular el Sxx de los casos n{1,2,3,4} para establecer la tercera diferencia es de 0,5. A la raíz de los cazadores sólo necesitan extender la secuencia hacia la izquierda an=0n=1, cuando todos los tres raíces. Me tomó un par de minutos para encontrar Sxx de esta forma.

Numerador, i(xiˉx)(yiˉy)

Tomo nota de la identidad de (ba)2b22ab+a2 que puede ser reorganizado para:

ab12(a2+b2(ba)2)

Si dejamos a=xiˉx=xin+12 b=yiˉy=yin+12 tenemos la utilidad resultado que ba=yixi=di debido a que el medio, es idéntica, en cancelar. Esa fue mi intuición para la escritura de la identidad, en primer lugar, quería cambiar de trabajo con el producto de los momentos de la plaza de sus diferencias. Ahora tenemos:

(xiˉx)(yiˉy)=12((xiˉx)2+(yiˉy)2d2i)

Con suerte, incluso los estudiantes de seguro de cómo manipular Σ notación puede ver cómo recapitulación sobre el conjunto de datos se obtiene:

Sxy=12(Sxx+Syyni=1d2i)

Ya hemos establecido, por el reordenamiento de las sumas, que Syy=Sxx, lo que nos deja con:

Sxy=Sxx12ni=1d2i

La fórmula de Spearman coeficiente de correlación está a nuestro alcance!

rS=SxySxxSyy=Sxx12id2iSxx=1id2i2Sxx

Sustituyendo el anterior resultado que Sxx=112n(n21) va a terminar el trabajo.

rS=1id2i212n(n21)=16id2in(n21)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X