28 votos

Cómputos de comprensión distancia correlación

Como mucho lo que he entendido, la distancia de correlación es un robusto y de manera universal para comprobar si existe una relación entre dos variables numéricas. Por ejemplo, si tenemos un conjunto de pares de números:

(x1, y1)
(x2, y2)
...
(xn, yn)

podemos utilizar la distancia de correlación para comprobar si hay alguna (no necesariamente lineal) la relación entre las dos variables (x y y). Por otra parte, x y y pueden ser vectores de diferentes dimensiones.

Es relativamente fácil calcular la distancia de correlación. Primero usamos $x_i$ a calcular la matriz de distancias. A continuación, calculamos la distancia de la matriz de uso de $y_i$. La distancia de dos matrices tienen el mismo tamaño, debido a que el número de $x_i$ $y_i$ es el mismo (porque vienen en pares).

Ahora tenemos una gran cantidad de distancias que pueden estar vinculados. Por ejemplo elemento (2,3) de la primera matriz de distancias se combina con el elemento (2,3) a partir de la segunda matriz de distancias. Por lo tanto, tenemos un conjunto de pares de distancias y podemos usarla para calcular la correlación (correlación entre las distancias).

Si dos tipos de distancias están correlacionados, lo que significa que cerca de Xs por lo general significa que cerca de Ys. Por ejemplo, si $x_7$ está cerca de a $x_{13}$ que significa que $y_7$ es probable que cerca de $y_{13}$. Así, podemos concluir que la Xs y Ys son dependientes.

Parece razonable, sin embargo, hay dos aspectos que no entiendo.

Primero, para calcular la distancia de correlación no hacemos uso de los dos la distancia las matrices directamente. Aplicamos a ellos doble centrado procedimiento (de modo que la suma de todos los elementos de cualquier fila (o columna) es igual a cero). Yo no entiendo por qué tenemos que hacerlo. Cuál es la lógica (o la intuición detrás de este paso?

Segundo, en la distancia original matrices que tiene ceros en la diagonal. Por lo tanto, si calculamos las correlaciones entre las distancias, vamos a tener una correlación estadísticamente significativa sólo porque muchos ceros de la primera matriz se emparejan con el correspondiente ceros en la segunda matriz. Cómo es este problema resuelto?

20voto

Uri Puntos 111

Distancia covarianza/correlación (= Browniano covarianza/correlación) se calcula en los siguientes pasos:

  1. Calcular la matriz de distancias euclídeas entre N de los casos por variable $X$, y otro igualmente de la matriz por la variable $Y$. Cualquiera de las dos características cuantitativas, $X$ o $Y$, podría ser multivariante, no sólo univariante.
  2. Realizar el doble de la capacidad de cada matriz. Ver cómo el doble de centrado se realiza habitualmente. Sin embargo, en nuestro caso, cuando se trata de hacer no cuadrado de las distancias inicialmente y no se dividen por $-2$ en la final. Fila, columna y de la media global de los elementos se vuelven cero.
  3. Multiplicar las dos matrices resultantes elementwise y calcular la suma; o, equivalentemente, desenvolver las matrices en dos vectores columna y calcular su sumado de cruz de producto.
  4. En promedio, dividiendo por el número de elementos, N^2.
  5. Tomar la raíz cuadrada. El resultado es la distancia de la covarianza entre el$X$$Y$.
  6. Distancia varianzas son la distancia covarianzas de $X$ $Y$ con el propio ser, para calcular ellos de la misma manera, los puntos de 3-4-5.
  7. La distancia de correlación se obtiene a partir de los tres números de forma análoga a cómo la correlación de Pearson se obtiene a partir de costumbre, la covarianza y el par de variaciones: dividir la covarianza por el sq. la raíz del producto de dos varianzas.

La distancia de la covarianza (y correlación) es que no la covarianza (o correlación) entre las distancias a sí mismos. Es la covarianza (correlación) entre el especial escalar productos (productos de puntos) que el "doble centrado en" matrices se compone de.

En el espacio euclidiano, producto por un escalar es la similitud unívocamente ligada con la distancia correspondiente. Si usted tiene dos puntos (vectores) se pueden expresar su cercanía como el producto escalar en lugar de su distancia, sin perder información.

Sin embargo, para calcular el producto por un escalar tiene para referirse al punto de origen del espacio (vectores vienen desde el origen). En general, se podría colocar el origen en donde a él le gusta, pero a menudo y conveniente es colocar en el geométrico medio de la nube de puntos, la media. Debido a que la media pertenece al mismo espacio como el que se extendió por la nube de la dimensionalidad no se llenan.

Ahora, el habitual doble centraje de la matriz de distancias (entre los puntos de una nube) es la operación de conversión de las distancias a los productos escalares, mientras que colocando el origen en que la media geométrica. En este modo, la "red" de las distancias es equivalente reemplazada por la "explosión" de los vectores, de determinadas longitudes y pares de ángulos, desde el origen:

enter image description here

[La constelación en mi ejemplo de la imagen es plana, que da la distancia que la "variable", dicen que fue $X$, después de haber generado fue de dos dimensiones. Al $X$ es de una sola columna de la variable de todos los puntos se encuentran sobre una línea, por supuesto.]

Sólo un poco formalmente sobre la doble operación de centrado. Vamos a tener n points x p dimensions datos $\bf X$ (en el caso univariante, p=1). Deje $\bf D$ n x n de la matriz de distancias euclídeas entre el n puntos. Deje $\bf C$ $\bf X$ con sus columnas en el centro. A continuación, haga doble centrado $\bf D^2$ es igual a $\bf CC'$, los productos escalares entre las filas después de la nube de puntos se centró.

¿Qué estamos haciendo cuando se calcula la distancia de la covarianza? Hemos convertido tanto en redes de distancias en sus correspondientes racimos de vectores. Y, a continuación, calculamos la correlación entre el rendimiento (y, posteriormente, la correlación) entre los valores correspondientes de las dos racimos: cada producto escalar de valor (ex valor de la distancia) de una configuración se multiplica por su correspondiente de la otra configuración. Que puede ser visto como (como se dijo en el punto 3) de computación de la habitual de la covarianza entre dos variables, después de vectorizar los dos matrices en esas "variables".

Por lo tanto, estamos covariating los dos conjuntos de similitudes (el escalar productos, los cuales son convertidos distancias). Cualquier tipo de covarianza es el producto cruzado de los momentos: usted tiene que calcular los momentos, las desviaciones de la media, en primer lugar, y el doble centraje fue que la computación. Esta es la respuesta a tu pregunta: una covarianza debe basarse en los momentos pero las distancias no son momentos.

Adicional a tomar de la raíz cuadrada después (punto 5) parece lógico, ya que en nuestro caso, el momento era ya en sí una especie de covarianza (producto por un escalar y un covarianza son compeers estructuralmente) y así sucedió que un tipo de multiplyed covarianzas dos veces. Por lo tanto, para descender de nuevo en el nivel de los valores de los datos originales (y para ser capaz de calcular valor de correlación) uno tiene que tomar la raíz después.

Una nota importante finalmente debe ir. Si estuviéramos haciendo doble centrado su forma clásica, es decir, después de que el cuadrado de la distancia euclídea - entonces acabaríamos con la distancia de covarianza que no es cierta distancia de la covarianza y no es útil. Aparecerá degenerado en una cantidad exactamente relacionado con la costumbre de covarianza (y la distancia de correlación será una función de correlación lineal de Pearson). Lo que hace la distancia covarianza/correlación único y capaz de medir no lineal de la asociación, sino una forma genérica de la dependencia, por lo que dCov=0 si y sólo si las variables son independientes, es la falta de cuadrar las distancias a la hora de realizar el doble de centrado (véase el punto 2). En realidad, el poder de las distancias en el rango de $(0,2)$ haría, sin embargo, la forma estándar es hacerlo en el poder $1$. ¿Por qué este poder y no el poder $2$ facilita el coeficiente a convertirse en la medida de los lineales interdependencia es bastante complicado (para mí) matemática cuestión de rodamiento de funciones características de las distribuciones, y me gustaría escuchar a alguien más educados a explicar aquí la mecánica de la distancia de covarianza/correlación con, posiblemente, de palabras simples (una vez lo intentó, sin éxito).

8voto

David Ramirez Puntos 99

Yo creo que ambos de sus preguntas están profundamente vinculados. Mientras que el original diagonales en la matriz de distancias de 0, lo que se utiliza para la covarianza (que determina el numerador de la correlación) es el doblemente centrada en los valores de las distancias, la cual, para un vector con alguna variación, significa que las diagonales serán negativos.

Así que vamos paso a través de un simple caso independiente y a ver si nos da alguna intuición de por qué la correlación es 0 cuando las dos variables son independientes.

$(X,Y)= [(0,0),(0,1),(1,0),(1,1)]$

La matriz de distancias para $X$ $Y$ son:

$a=\left[\begin{array}{cccc} 0&0&1&1\\ 0&0&1&1\\ 1&1&0&0\\ 1&1&0&0\end{array}\right]$

$b=\left[\begin{array}{cccc} 0&1&0&1\\ 1&0&1&0\\ 0&1&0&1\\ 1&0&1&0\end{array}\right]$

La media de cada fila y columna es de 0,5, el grand significa también es 0.5, y así nos resta 0.5 fuera de todo para conseguir $A$:

$A=\left[\begin{array}{rrrr} -.5&-.5&.5&.5\\ -.5&-.5&.5&.5\\ .5&.5&-.5&-.5\\ .5&.5&-.5&-.5\end{array}\right]$

$B=\left[\begin{array}{rrrr} -.5&.5&-.5&.5\\ .5&-.5&.5&-.5\\ -.5&.5&-.5&.5\\ .5&-.5&.5&-.5\end{array}\right]$

Ahora, ¿qué pasa cuando nos calcular la muestra de la distancia de la covarianza, que es el promedio del elemento sabio producto de las dos matrices? Podemos ver fácilmente de los 16 elementos, 4 (la diagonal!) se $-.5\cdot-.5=.25$ pares, 4 $.5\cdot.5=.25$ pares, y 8 $-.5\cdot.5=-.25$ pares, y así el promedio general es de $0$, que es lo que queríamos.

Ese es un ejemplo, no una prueba de que va a ser necesariamente el caso de que si las variables son independientes, la distancia de correlación de la $0$, y que si la distancia de correlación es 0, entonces las variables son independientes. (La prueba de las dos demandas se pueden encontrar en el 2007 el papel que introdujo la distancia de correlación.)

Me parece intuitivo que el centrado crea esta propiedad deseable ($0$ tiene un significado especial). Si nos acababa de tomar el promedio del elemento sabio producto de $a$ $b$ nos habría terminado con $0.25$, y habría tomado un poco de esfuerzo para determinar que este número corresponde a la independencia. El uso de la negativa de "media" como la diagonal significa que naturalmente tomado cuidado de. Pero es posible que desee pensar en el por qué de doble centraje tiene esta propiedad: también va a trabajar para hacer único de centrado (con la fila, columna, o de la gran media)? No hemos podido ajustar real de las distancias y acaba de establecer la diagonal del negativo de la fila suma, de la suma de la columna, o la suma?

(Como ttnphns señala, por sí mismo, esto no es suficiente, ya que la alimentación también es importante. Podemos hacer el mismo doble centrado, pero si les agregamos en cuadratura vamos a perder el si y sólo si la propiedad.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X