Sólo quería añadir a las otras respuestas un poco sobre cómo, en cierto sentido, hay una fuerte razón teórica para preferir ciertos métodos de agrupación jerárquica.
Una suposición común en el análisis de conglomerados es que los datos se muestrean a partir de alguna densidad de probabilidad subyacente $f$ al que no tenemos acceso. Pero supongamos que tenemos acceso a ella. ¿Cómo definiríamos el racimos de $f$ ?
Un enfoque muy natural e intuitivo es decir que los grupos de $f$ son las regiones de alta densidad. Por ejemplo, considere la densidad de dos picos de abajo:
Al trazar una línea a través del gráfico, inducimos un conjunto de clusters. Por ejemplo, si dibujamos una línea en $\lambda_1$ obtenemos los dos clusters mostrados. Pero si trazamos la línea en $\lambda_3$ , obtenemos un único clúster.
Para hacer esto más preciso, supongamos que tenemos un $\lambda > 0$ . ¿Cuáles son los grupos de $f$ en el nivel $\lambda$ ? Son el componente conectado del conjunto de superniveles $\{x : f(x) \geq \lambda \}$ .
Ahora, en lugar de elegir un $\lambda$ podríamos considerar todo $\lambda$ , tal que el conjunto de agrupaciones "verdaderas" de $f$ son todos los componentes conectados de cualquier conjunto de superniveles de $f$ . La clave es que esta colección de racimos tiene jerárquico estructura.
Permítanme ser más preciso. Supongamos que $f$ es compatible con $\mathcal X$ . Ahora dejemos que $C_1$ sea un componente conexo de $\{ x : f(x) \geq \lambda_1 \}$ y $C_2$ sea un componente conexo de $\{ x : f(x) \geq \lambda_2 \}$ . En otras palabras, $C_1$ es un cluster en el nivel $\lambda_1$ y $C_2$ es un cluster en el nivel $\lambda_2$ . Entonces, si $\lambda_2 < \lambda_1$ Entonces, o bien $C_1 \subset C_2$ o $C_1 \cap C_2 = \emptyset$ . Esta relación de anidamiento es válida para cualquier par de clusters de nuestra colección, por lo que lo que tenemos es de hecho un jerarquía de grupos. A esto lo llamamos árbol de racimos .
Así que ahora tengo algunos datos muestreados de una densidad. ¿Puedo agrupar estos datos de forma que se recupere el árbol de conglomerados? En particular, nos gustaría que un método consistente en el sentido de que, a medida que reunimos más y más datos, nuestra estimación empírica del árbol de conglomerados se acerca cada vez más al verdadero árbol de conglomerados.
Hartigan fue el primero en plantear estas cuestiones, y al hacerlo definió con precisión lo que significaría que un método de agrupación jerárquica estimara de forma coherente el árbol de conglomerados. Su definición fue la siguiente: Sea $A$ y $B$ ser verdad disyuntiva grupos de $f$ como se definió anteriormente, es decir, son componentes conectados de algunos conjuntos de supernivel. Ahora dibuje un conjunto de $n$ muestras iid de $f$ y llamamos a este conjunto $X_n$ . Aplicamos un método de agrupación jerárquica a los datos $X_n$ y obtenemos una colección de empírico racimos. Sea $A_n$ sea el El más pequeño clúster empírico que contiene todos los $A \cap X_n$ y que $B_n$ sea el más pequeño que contenga todos los $B \cap X_n$ . Entonces se dice que nuestro método de clustering es Hartigan es consistente si $\Pr(A_n \cap B_n) = \emptyset \to 1$ como $n \to \infty$ para cualquier par de conglomerados disjuntos $A$ y $B$ .
Esencialmente, la consistencia de Hartigan dice que nuestro método de agrupación debería separar adecuadamente las regiones de alta densidad. Hartigan investigó si la agrupación de enlace único podría ser consistente, y encontró que es no consistente en dimensiones > 1. El problema de encontrar un método general y consistente para estimar el árbol de conglomerados estaba abierto hasta hace pocos años, cuando Chaudhuri y Dasgupta introdujeron robusto enlace único , lo cual es demostrablemente consistente. Le sugiero que lea su método, ya que es bastante elegante, en mi opinión.
Así que, para responder a sus preguntas, hay un sentido en el que la agrupación jerárquica es lo "correcto" cuando se intenta recuperar la estructura de una densidad. Sin embargo, fíjate en las comillas que rodean a "correcto"... En última instancia, los métodos de clustering basados en la densidad tienden a funcionar mal en dimensiones altas debido a la maldición de la dimensionalidad, y así, aunque una definición de clustering basada en que los clusters son regiones de alta probabilidad es bastante limpia e intuitiva, a menudo se ignora en favor de métodos que funcionan mejor en la práctica. Esto no quiere decir que la vinculación única robusta no sea práctica: de hecho, funciona bastante bien en problemas de dimensiones inferiores.
Por último, diré que la consistencia de Hartigan no concuerda en cierto modo con nuestra intuición de convergencia. El problema es que la consistencia de Hartigan permite que un método de agrupación sobre-segmento clústeres, de manera que un algoritmo puede ser consistente con Hartigan, y sin embargo producir clústeres que son muy diferentes del verdadero árbol de clústeres. Este año hemos elaborado un trabajo sobre una noción alternativa de convergencia que aborda estas cuestiones. El trabajo apareció en "Beyond Hartigan Consistency: Merge distortion metric for hierarchical clustering" en COLT 2015.