Para comparar la similitud de dos jerárquica (árbol), las estructuras, las medidas basadas en cophenetic idea de la correlación se utilizan. Sin embargo, es correcto para realizar la comparación de dendrograms con el fin de seleccionar la "derecha" o el método de medida de distancia en la agrupación jerárquica?
Hay algunos puntos ocultos inconvenientes - en cuanto a análisis de cluster jerárquico que mantendría bastante importante:
- Nunca comparar (para elegir) dendrograms obtenidos por los diferentes aglomeración
los métodos visuales. No digo que el método es el "mejor". Cada método tienesus
propio "prototipo" árbol de la mirada: los árboles difieren constantemente, incluso cuando
los datos no tienen estructura de cluster o han azar estructura de cluster. (Y no creo exista una estandarización o medida de que iba a tener estas diferencias intrínsecas.). Sin embargo, usted puede comparar dendrograma miradas de los resultados producidos por el mismo método pero con diferentes datos.
- No decidir sobre el número de clusters (es decir, donde a cortar el árbol) mirando en el dendrograma de Ward método. En el Barrio, el árbol muestra el crecimiento de la sumativa, no el promedio, el coeficiente de colligation; y la consecuencia es que desde luego clusters son más grandes por el número de puntos, el que más tarde los clústeres de aspecto engañosamente "mejor" en el árbol. Para estandarizar Ward dendrogramm adecuadamente, se divide el coeficiente de crecimiento en cada paso por el número total de puntos en los dos grupos en que se combinan (estandarizado dendrograma de Ward, sin embargo, puede ser difícil de implementar de forma gráfica).$^1$
- Aunque nadie puede prohibir la "experimentación" con medidas de distancia o agglomerative métodos, es mejor seleccionar la distancia y el método conscientemente, no ciego tratando. La distancia debe reflejar los aspectos de la diferencia que usted está interesado en, y el método - uno debe ser consciente - implica un determinado arquetipo de un clúster (por ejemplo, la metáfora de un Barrio de clúster es, yo diría, de tipo; clúster después de completar la vinculación sería círculo [por hobby o parcela]; clúster después de la vinculación sería espectro [cadena]; clúster después de centroide método sería la proximidad de las plataformas de [la política]; un promedio de vinculación de clúster es conceptualmente más indiferenciado y sería en general de los estados de la clase).
- Algunos métodos de la llamada por derecho de medidas de distancia y/o tipo de datos. De barrio y centro de gravedad, por ejemplo, lógicamente requieren (cuadrado) a distancia euclidiana - debido a que estos métodos participar en el cálculo de los centroides en el espacio euclidiano. Y el cálculo geométrico de los centroides es incongruente con, por ejemplo, datos binarios; los datos deben ser de escala/continua.
- No todos los métodos de agglomerative la agrupación puede ser igualmente visto como dándole la clasificación jerárquica... en el terreno filosófico. Por ejemplo, el centro de gravedad es el método da jerarquía en un sentido, porque clúster centro es un emergente y la definición de las características de un grupo, como un todo, y la fusión de los grupos es impulsado por esa característica. Completa la vinculación, por otro lado, "descarta" ambos subgrupos cuando se los combina - en virtud de distanciamiento entre individuo objetos de los dos. Así, se completa la vinculación dendrograma es simplemente una historia de la colección y no una relación padre-hijo especie de taxonomía.
- La agrupación jerárquica es típico algoritmo voraz que la convierte en la mejor elección entre las alternativas que aparecen en cada paso, con la esperanza de acercarse a la solución óptima en la final. Sin embargo, la "mejor" opción de aparecer en un alto nivel paso es probable que sea más pobres que el óptimo global teóricamente posible ese paso. El mayor es el paso, la mayor es la suboptimality, como una regla. Dado que usualmente queremos que pocos racimos últimos pasos son importantes; y, como ya se dijo, se espera que sea relativamente baja si los pasos de' el número es alto (es decir, la milésima paso). Es por eso que la agrupación jerárquica es, generalmente, no se recomienda para grandes muestras de objetos (la numeración de miles de objetos), incluso si el programa puede manejar una gran distancia de la matriz.
Si después de estas precauciones que siguen pensando que desea una medida de similitud entre las clasificaciones jerárquicas usted puede google en 'la comparación de dendrograms' y 'la comparación de las clasificaciones jerárquicas'. Una mayoría de lo que sugiere la misma idea puede estar basado en el cophenetic correlación: tener dos dendrograms para el mismo conjunto de datos de n objetos, vamos a $X_{ij}$ coeficiente de colligation (o tal vez su rango, el número de paso) entre cada par de objetos ij en un dendrograma, y $Y_{ij}$ asimismo, será el mismo en los otros dendrograma. Calcular la correlación o coseno.
$^1$ Actualización posterior sobre el problema de la dendrograma de los Barrios's método. La agrupación diferente que los programas de salida de manera diferente transformado aglomeration coeficientes por el método de Ward. De ahí su dendrograms tendrá un aspecto algo diferente a pesar de que la agrupación de la historia y los resultados son los mismos. Por ejemplo, SPSS no toma la raíz de la ultrametric coeficientes, y se acumula en la salida. Otra tradición (que se encuentra en algunos paquetes de R, por ejemplo) es tomar la raíz (el llamado "Barrio" -2" implementaciones) y no se acumulan. Repetir de nuevo, estas diferencias sólo afectan a la forma general/parece del dendrograma, no los resultados de la agrupación. Pero el aspecto de la dendrograma podría influir en su decisión sobre el número de clusters. La moraleja es que sería más seguro no confiar en dendrograma en el método de Ward, a menos que usted sepa exactamente lo que son estos coeficientes del programa y cómo interpretarlas correctamente.