81 votos

¿Dónde cortar un dendrograma?

La agrupación jerárquica puede representarse mediante un dendrograma. Al cortar un dendrograma en un nivel determinado se obtiene un conjunto de clusters. Si se corta en otro nivel, se obtiene otro conjunto de conglomerados. ¿Cómo se puede elegir dónde cortar el dendrograma? ¿Hay algo que podamos considerar un punto óptimo? Si observo un dendrograma a lo largo del tiempo a medida que va cambiando, ¿debo cortar en el mismo punto?

0 votos

Yo también me he preguntado sobre este problema, pero (desgraciadamente) aún no he encontrado ninguna respuesta convincente. Creo que no hay solución. Hay paquetes R/BioC como hopack (y otros) que pueden estimar el número de racimos, pero eso no responde a tu pregunta.

0 votos

El pvclust paquete para R tiene funciones que dan valores p de bootstrap para los conglomerados del dendrograma, lo que le permite identificar los grupos: is.titech.ac.jp/~shimo/prog/pvclust

0 votos

Un sitio útil con algunos ejemplos sobre cómo hacerlo en la práctica: towardsdatascience.com/

58voto

DavLink Puntos 101

No hay una respuesta definitiva, ya que el análisis de conglomerados es esencialmente un enfoque exploratorio; la interpretación de la estructura jerárquica resultante depende del contexto y a menudo varias soluciones son igualmente buenas desde un punto de vista teórico.

Se dieron varias pistas en una pregunta relacionada, ¿Qué criterios de parada para la agrupación jerárquica aglomerativa se utilizan en la práctica? Generalmente utilizo criterios visuales, por ejemplo, gráficos de silueta, y algún tipo de criterio numérico, como el índice de validez de Dunn, la gamma de Hubert, el coeficiente G2/G3 o el índice de Rand corregido. Básicamente, queremos saber lo bien que se aproxima la matriz de distancias original en el espacio de los clusters, por lo que una medida de la correlación cofenética también es útil. También utilizo k-means, con varios valores de partida, y el estadística de la brecha ( espejo ) para determinar el número de conglomerados que minimizan el SSI interno. La concordancia con el clustering jerárquico de Ward da una idea de la estabilidad de la solución de cluster (Se puede utilizar matchClasses() en el e1071 para ello).

Encontrará recursos útiles en la vista de tareas de CRAN Cluster , incluyendo pvclust , fpc , clv entre otros. También vale la pena probar el clValid paquete ( descrito en el Revista de Software Estadístico ).

Ahora bien, si sus conglomerados cambian con el tiempo, esto es un poco más complicado; ¿por qué elegir la primera solución de conglomerado en lugar de otra? ¿Espera que algunos individuos pasen de un clúster a otro como resultado de un proceso subyacente que evoluciona con el tiempo?

Hay algunas medidas que tratan de hacer coincidir los clusters que tienen un solapamiento máximo absoluto o relativo, como se le sugirió en su pregunta anterior. Mire Comparación de agrupaciones - Una visión general de Wagner y Wagner.

12voto

Dori Puntos 1325

No hay realmente una respuesta. Está entre el 1 y el N.

Sin embargo, se puede pensar en ello desde la perspectiva de los beneficios.

Por ejemplo, en marketing se utiliza la segmentación, que es muy parecida a la agrupación.

Un mensaje (un anuncio o una carta, por ejemplo) adaptado a cada persona tendrá el mayor índice de respuesta. Un mensaje genérico adaptado a la media tendrá el índice de respuesta más bajo. Un mensaje adaptado a tres segmentos, por ejemplo, estará en un punto intermedio. Este es el lado de los ingresos.

Un mensaje adaptado a cada individuo tendrá el mayor coste. Un mensaje genérico adaptado a la media tendrá el coste más bajo. Tres mensajes adaptados a tres segmentos estarán en un punto intermedio.

Digamos que pagar a un escritor para que escriba un mensaje personalizado cuesta 1000, dos cuestan 2000 y así sucesivamente.

Digamos que utilizando un mensaje, sus ingresos serán de 5000. Si segmentas a tus clientes en 2 segmentos y escribes mensajes adaptados a cada uno de ellos, tu tasa de respuesta será mayor. Digamos que los ingresos son ahora de 7500. Con tres segmentos, una tasa de respuesta ligeramente superior, y sus ingresos son de 9000. Un segmento más, y estarás en 9500.

Para maximizar el beneficio, hay que seguir segmentando hasta que el ingreso marginal de la segmentación sea igual al coste marginal de la misma. En este ejemplo, se utilizarían tres segmentos para maximizar el beneficio.

Segments  Revenue  Cost  Profit
1         5000     1000  4000
2         7500     2000  5500
3         9000     3000  6000
4         9500     4000  5500

1 votos

Es una perspectiva interesante.

6voto

YequalsX Puntos 320

Tal vez uno de los métodos más sencillos sería una representación gráfica en la que el eje x sea el número de grupos y el eje y cualquier métrica de evaluación como la distancia o la similitud. En ese gráfico se suelen observar dos regiones diferenciadas, siendo el valor del eje x en la "rodilla" de la línea el número "óptimo" de grupos.

También hay algunos estadísticos que podrían servir para esta tarea: la gamma de Hubert, el pseudo-t², el pseudo-F o el criterio de agrupación cúbica (CCC), entre otros.

0 votos

Estoy de acuerdo con chl. Los análisis de conglomerados son enfoques exploratorios y la interpretación de los resultados, para este caso concreto el número óptimo de conglomerados, depende de su contexto. Por ejemplo, en mi trabajo es habitual utilizar los análisis de conglomerados para clasificar a los individuos en función de varias características y a veces el número de conglomerados está preestablecido. En este caso, nuestro objetivo es encontrar el conjunto de variables clasificatorias que mejor distinga a los individuos pertenecientes a diferentes clusters.

5voto

Scott Cowan Puntos 1564

También hay "Clustergram: visualización y diagnóstico para el análisis de clusters" (con código R)

No es realmente una respuesta, pero es otra idea interesante para la caja de herramientas.

4voto

will Puntos 6

En el clustering jerárquico el número de particiones de salida no son sólo los cortes horizontales sino también los cortes no horizontales que deciden el clustering final. Por lo tanto, esto puede considerarse como un tercer criterio aparte del 1. criterio de distancia 2. criterio de vinculación. El criterio de vinculación. http://en.wikipedia.org/wiki/Hierarchical_clustering El criterio que has mencionado es un tercer tipo que es una especie de restricción de optimización sobre el conjunto de particiones en la jerarquía. Esto se presenta formalmente en este documento y se dan ejemplos de segmentación. http://www.esiee.fr/~kiranr/ClimbingECCV2012_Preprint.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X