19 votos

Es aceptar a Manhattan, uso a distancia con Ward inter-clúster de la vinculación en la agrupación jerárquica?

Estoy usando la agrupación jerárquica para analizar los datos de series de tiempo. Mi código es implementada utilizando Mathematica función DirectAgglomerate[...], lo que genera conglomerados jerárquicos dadas las siguientes entradas:

  • una matriz de distancias D
  • el nombre del método utilizado para determinar inter-clúster de vinculación.

He calculado la matriz de distancias D uso de Manhattan distancia:

$d(x,y) = \sum_i|x_i - y_i|$ donde $i = 1,\cdots, n$ $n \approx 150$ es el número de puntos de datos en mi unicc.

Mi pregunta es, ¿es correcto el uso de Ward inter-clúster de vinculación con un Manhattan matriz de distancias? Algunas fuentes sugieren que el Barrio de la vinculación debe ser utilizado solamente con la distancia Euclídea.

Tenga en cuenta que DirectAgglomerate[...] calcula el Barrio de la vinculación con la matriz de distancias, no en las observaciones originales. Por desgracia, estoy seguro de cómo Mathematica modifica Barrio del algoritmo original, que (a mi entender) trabajaron por minimizar la suma de cuadrados de error de las observaciones, calculado con respecto a la media de clústeres. Por ejemplo, para un clúster $c$ consiste en un vector de univariante observaciones, Ward, formuló la suma de cuadrados de error como:

$(\sum_j||c_j - mean(c)||_2)^2$

(Otras herramientas de software como Matlab y R también implementar el Barrio de la agrupación utilizando sólo una matriz de distancias así que la pregunta no es específico para Mathematica).

Gracias gracias por su ayuda!

11voto

Cd-MaN Puntos 7911

El Barrio en el algoritmo de agrupamiento es una agrupación jerárquica método que minimiza el 'inercia' criterios en cada paso. Esta inercia se cuantifica la suma de los cuadrados de los residuos entre la reducción de la señal y la señal inicial: es una medida de la varianza del error en una l2 (Euclidiana) sens. De hecho, incluso se menciona en su pregunta. Esta es la razón por la que, creo, no tiene sentido aplicarlo a una matriz de distancias que no es un l2 distancia Euclidiana.

Por otro lado, un promedio de vinculación o una agrupación jerárquica de ligamiento sería perfectamente adecuado para otras distancias.

6voto

Xenph Yan Puntos 20883

No puedo pensar en ninguna razón por qué protegido debe a favor de cualquier medida. El método de Ward es sólo otra opción para decidir cual de los clústeres de fusión a continuación, durante la aglomeración. Esto se logra mediante la búsqueda de los dos grupos cuya fusión de minimizar un cierto error (ejemplos de código fuente para la fórmula).

Por lo tanto se basa en dos conceptos:

  1. La media de los vectores que (para numérica vectores) es generalmente calculado por el promedio de cada dimensión por separado.
  2. La distancia métrica en sí mismo es decir, el concepto de similitud expresado por esta medida.

Así: mientras las propiedades de la métrica elegida (como, por ejemplo, la rotación,la traducción o la invariancia de escala) satisfacer sus necesidades (y las métricas que se ajusta a la manera en que el clúster promedio se calcula), no veo ninguna razón para no utilizarla.

Sospecho que la mayoría de las personas sugieren que la métrica euclidiana porque

  • quieren aumentar el peso de las diferencias entre una media de clústeres y una única observación vector (que es hecho por quadration)
  • o porque salió como mejor métrica en la validación basada en sus datos
  • o porque se usa en general.

2voto

bentsai Puntos 1886

Otra manera de pensar acerca de esto, que podría prestarse a una adaptación para $\ell_1$ es que la elección de la media viene del hecho de que la media es el punto que minimiza la suma de los cuadrados de las distancias Euclídeas. Si usted está usando $\ell_1$ a medir la distancia entre las series de tiempo, entonces usted debe utilizar un centro que minimiza la suma de los cuadrados de las $\ell_1$ distancias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X