Estoy usando la agrupación jerárquica para analizar los datos de series de tiempo. Mi código es implementada utilizando Mathematica función DirectAgglomerate[...]
, lo que genera conglomerados jerárquicos dadas las siguientes entradas:
- una matriz de distancias D
- el nombre del método utilizado para determinar inter-clúster de vinculación.
He calculado la matriz de distancias D uso de Manhattan distancia:
$d(x,y) = \sum_i|x_i - y_i|$ donde $i = 1,\cdots, n$ $n \approx 150$ es el número de puntos de datos en mi unicc.
Mi pregunta es, ¿es correcto el uso de Ward inter-clúster de vinculación con un Manhattan matriz de distancias? Algunas fuentes sugieren que el Barrio de la vinculación debe ser utilizado solamente con la distancia Euclídea.
Tenga en cuenta que DirectAgglomerate[...]
calcula el Barrio de la vinculación con la matriz de distancias, no en las observaciones originales. Por desgracia, estoy seguro de cómo Mathematica modifica Barrio del algoritmo original, que (a mi entender) trabajaron por minimizar la suma de cuadrados de error de las observaciones, calculado con respecto a la media de clústeres. Por ejemplo, para un clúster $c$ consiste en un vector de univariante observaciones, Ward, formuló la suma de cuadrados de error como:
$(\sum_j||c_j - mean(c)||_2)^2$
(Otras herramientas de software como Matlab y R también implementar el Barrio de la agrupación utilizando sólo una matriz de distancias así que la pregunta no es específico para Mathematica).
Gracias gracias por su ayuda!