32 votos

Uso de la correlación como métrica de distancia (para la agrupación jerárquica)

Me gustaría agrupar jerárquicamente mis datos, pero en lugar de utilizar la distancia euclidiana, me gustaría utilizar la correlación. Además, como el coeficiente de correlación va de -1 a 1, y tanto -1 como 1 denotan "corregulación" en mi estudio, estoy tratando tanto -1 como 1 como d = 0. Así que mi cálculo es $\ d = 1-|r|$

He leído en otra pregunta (sobre la agrupación de k-means), que hay que convertir r a la verdadera euclidiana d utilizando el teorema del coseno: $d = \sqrt{2(1-r)}$

¿Cuál es la forma más precisa de convertir la correlación en distancia para la agrupación jerárquica?

30voto

Amadiere Puntos 5606

Requisitos para la agrupación jerárquica

La agrupación jerárquica puede utilizarse con medidas de similitud y disimilitud arbitrarias. (La mayoría de las herramientas esperan una disimilitud, pero permitirán valores negativos - depende de usted asegurar si se preferirán valores pequeños o grandes).

Sólo los métodos basados en los centroides o en la varianza (como el método de Ward) son especiales, y deben utilizarse con el euclidiano al cuadrado. (Para entender por qué, estudie detenidamente estos enlaces).

La vinculación simple, la vinculación media y la vinculación completa no se ven muy afectadas, seguirá siendo la mínima / media / máxima de las disimilitudes entre pares.

Correlación como medida de distancia

Si preprocesa sus datos ( $n$ observaciones, $p$ características) tal que cada característica tiene $\mu=0$ y $\sigma=1$ (que no permite características constantes), entonces la correlación se reduce al coseno:

$$ \text{Corr} (X,Y) = \frac{\text{Cov}(X, Y)} {\sigma_X \sigma_Y} = \frac{\mathbb{E} \left[ (X - \mu_X) (Y - \mu_Y) \right]} {\sigma_X \sigma_Y} = \mathbb{E} [XY] = \frac1n \left<X, Y\right> $$

En las mismas condiciones, la distancia euclidiana al cuadrado también se reduce al coseno:

$$ d_\text{Euclid}^2(X,Y) = \sum (X_i - Y_i)^2 = \sum X_i^2 + \sum Y_i^2 - 2 \sum X_i Y_i \\ = 2n - 2\left<X, Y\right> = 2n \left[1 - \text{Corr}(X, Y)\right] $$

Por lo tanto, a menos que sus datos sean degenerados, el uso de la correlación para la agrupación jerárquica debería estar bien. Sólo hay que preprocesarlo como se ha explicado anteriormente, y luego utilizar la distancia euclidiana al cuadrado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X