11 votos

¿Cuáles son las distancias entre las variables de hacer una matriz de covarianza?

Tengo un $n \times n$ matriz de covarianza y quiere partición de las variables en $k$ clústeres mediante la agrupación jerárquica (por ejemplo, para ordenar una matriz de covarianza).

Hay una típica función de distancia entre variables (es decir, entre las filas o las columnas de la plaza de la matriz de covarianza)?

O si hay más, hay una buena referencia sobre el tema?

15voto

Uri Puntos 111

La covarianza (o correlación o coseno) puede ser fácilmente y, naturalmente, se convierte en la distancia euclídea por medio de la ley de los cosenos, porque es un producto escalar (= angular de similitud basado) en el espacio euclidiano. Sabiendo que la covarianza entre dos variables i y j , así como sus variaciones automáticamente implica saber d entre las variables: $d_{ij}^2 = \sigma_i^2 + \sigma_j^2 −2cov_{ij}$.

Tenga en cuenta que esta fórmula significa que una covarianza negativa es mayor la distancia que los positivos covarianza (y este es el caso de la geometría punto de vista, es decir, cuando las variables son consideradas como vectores en el tema de espacio). Si usted no desea que el signo de la covarianza para jugar a rol, la abolición de signo negativo. Ignorando el signo negativo no es "la aplicación de parches a mano" de la operación y se justifica, cuando sea necesario: si cov matriz es positiva definida, abs(cov) de la matriz será positiva definida; y por lo tanto las distancias obtenidas por la fórmula anterior será cierto euclidiana distancias (distancia euclidiana es una especie particular de métrica de distancia).

Distancias euclídeas son universales en el respeto a la agrupación jerárquica: cualquier método de dicha agrupación es válido, ya sea con la distancia euclídea o euclídea al cuadrado d. Pero algunos de los métodos, por ejemplo, el promedio de vinculación o de unión completa, se puede utilizar con cualquier diferencia o similitud (no sólo la métrica de distancia). Así que usted podría utilizar tales métodos directamente con cov o abs(cov) de la matriz o - por ejemplo - con max(abs(cov))-abs(cov), la matriz de distancias. Por supuesto, agrupando los resultados podrían depender de la naturaleza exacta de la (dis)de similitud utilizado.

3voto

max Puntos 6

¿Por qué no utilizar la matriz de correlación para hacer la agrupación? Asumiendo que tu variables aleatorias se centra, mediante el cálculo de la correlación entre las variables que se van a calcular la similitud del coseno distancia. Esta distancia también se menciona en su enlace. Esta distancia puede ser utilizado para la agrupación jerárquica. El más pequeño de 1 |similitud del coseno|, más similares a sus variables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X