8 votos

¿Puede sub-optimalidad de varios métodos de agrupamiento jerárquicos evaluado o clasificado?

Clásico agglomerative la agrupación jerárquica de los métodos se basan en un algoritmo voraz. Esto significa que ellos (muchos de ellos) son propensas a dar a los sub-óptimas soluciones en lugar de la global resultado óptimo, especialmente en los pasos posteriores de la aglomeración. Para aclarar: cada uno de los agglomerative métodos convierte en la mejor elección de que dos grupos para combinar en un paso dado $q$, la opción que minimiza (a valor de $\delta_q$) el coeficiente de colligation $\delta$ sobre el paso; sin embargo, no es imposible que si algo había elegido no es el mejor pero un poco peor elección en las paso(s) a continuación, habría sido capaz de reducir el coeficiente de paso de $q$ a un valor menor que el $\delta_q$, mientras que la preservación monotonical crecimiento de $\delta$. Globalmente óptima solución en el paso de $q$ corresponde a lo absolutamente mínimo de tal manera alcanzable valor de $\delta_q$ con la restricción restante que $\delta_q \ge \delta_{q-1} \ge \delta_{q-2} \cdots$.

El riesgo de sub-optimalidad es la razón principal por la agrupación jerárquica es comúnmente no se recomienda con gran cantidad de objetos (por ejemplo, más de varios cientos): el investigador normalmente quiere pocos racimos y por lo tanto se ve en los pasos posteriores, pero si un paso posterior es, digamos, un 1000 a uno, es más sospechoso por haber extraviado globalmente óptima partición posible en el 1000 paso que, por ejemplo, un 100 paso pasado de nivel mundial óptimos partición posible en el 100º paso. Esto parece una cuestión de dictamen.

Mi pregunta es, ¿qué piensa usted acerca de que entre las conocidas agglomerative métodos - single de vinculación, unión completa, la media de la unión (dentro de los grupos), la media de la unión (entre grupos), centro de gravedad, la mediana, el Barrio de la suma de cuadrados - estoy mencionando aquellos en SPSS, pero hay otras variantes similares, así como son más y que son menos propensos a la sub-optimalidad defecto como el paso número crece. La intuición me sugiere que individual o completa de vinculación no son propensas a todos y siempre dan sus globalmente mejores soluciones, ya que estos métodos no participan en el cálculo de las estadísticas derivadas de las distancias (por ejemplo, los centroides). Yo puede ser tanto a la derecha como que no. ¿Qué pasa con el resto de métodos? Puede alguien aquí intento de analizar la (relativa) grado de local-óptima de riesgo de las anteriores concreto algoritmos voraces?

De la ilustración. Afortunadamente, para el Barrio método nos han pistas para observar cómo sub-optimalidad se acumula como $q$ crece. Porque no es bien conocido como un método iterativo que intenta optimizar la misma función $\delta$ como Ward hace; esto es K-means clustering: ambos tratan de minimizar agrupado en clúster suma de cuadrados$^1$. Podemos hacer del Barrio de la agrupación y en cada paso guardar clúster de centros, y utilizarlos como inicial de los centros en el procedimiento K-medios. Se K significa mejorar el Barrio las soluciones en términos de suma de cuadrados?

[$^1$ Nota: el Objetivo de las funciones de los dos no son exactamente lo mismo, si de ser la correcta. Barrio minimiza el aumento en la suma de cuadrados. Otro método jerárquico, método de varianza MIVAR (ver Podany, J., 1989, por diversos métodos jerárquicos), que es menos conocida, que minimiza la media de cuadrados dentro de los grupos.]

Nota. Esta ilustración pruebas de Ward observó $\delta_q$ valores no en contra de su propia óptimo global de los valores que no sabemos porque no podemos probar, por cada paso, todos los innumerables alternativas reconstrucciones de los pasos anteriores con el fin de encontrar la mínima posible $\delta_q$; las pruebas contra K-medios de optimalidad (que es casi su mundial aquí porque iniciales centros proporcionada por el Barrio puede considerarse razonablemente buen comienzo para las iteraciones).

Aquí hay algunos datos (5 no bien separados de los clústeres, 183 puntos). Los datos se sometieron tanto del Barrio de clústeres de sesión y K-means clustering sesiones, tal como se describe.

enter image description here

Resultados (valor de $\delta$) para grupos de 50 a través de los 2 se muestran a continuación. Aunque los 2 curvas están cerca el uno del otro, K-means " los valores son algo mejores. Es decir, K-means es más óptimo de Barrio.

enter image description here

La última imagen parcelas $\delta^{Ward}/\delta^{Kmeans}$. La tendencia es claramente a la vista: como el número de clústeres disminuye (es decir, paso $q$ para el Barrio crece), Ward tiende a ser menos óptima en relación a K-means.

enter image description here

Una tentadora pregunta sería si la relación de sub-optimalidad de Ward (el valor de $\delta^{Ward}/\delta^{Kmeans}$) en estos últimos 49 pasos de la aglomeración sería mayor si que he analizado en la misma forma de 1830 puntos de datos en lugar de sólo 183.

3voto

Amadiere Puntos 5606

Sub-optimalidad con respecto a qué?

Tengo la impresión de que usted está mezclando un poco las cosas aquí.

Solo vinculación, el promedio de vinculación, etc. son medida de definiciones, no de los algoritmos de

Cuando se trata de algoritmos, las diferentes opciones que existen. Para un enlace, por ejemplo no es el ingenuo matriz algoritmo basado en $O(n^3)$, con lo cual siempre combinar el mínimo se encuentra en la matriz actual, a continuación, eliminar filas. (Como la matriz es $O(n^2)$ en tamaño y se tarda $O(n)$ iteraciones, esto da lugar a la $O(n^3)$ tiempo de ejecución). Pero también hay una más eficiente algoritmo único de vinculación de la agrupación denominada FREGADERO, que es en $O(n^2)$. Creo que también hay CLINK para completar la vinculación, y algunos de los otros también pueden tener eficientes algoritmos para este problema. Me imagino que la complejidad de $O(n^3)$ y el requisito de memoria de $O(n^2)$ son también la principal motivación para no utilizarla para grandes conjuntos de datos, junto con las dificultades a la hora de elegir el corte apropiado a través del dendrograma y la relativa incapacidad del algoritmo para lidiar con los valores atípicos.

SLINK y el ingenuo algoritmo debe producir el mismo resultado, aunque.

Entonces, ¿cómo es exactamente lo que puede esperar de un óptimo local a suceder, y con respecto a lo que la medida es sub-óptima?

Actualización: para una extensión de tu pregunta. Considerar que hubo algunos mejor combinación posible en el paso q que el ingenuo algoritmo de caída, no debe haber sido una decisión en el paso q-x donde el algoritmo debería haber hecho una elección diferente. Así que debe haber un primer nivel, donde las dos soluciones divergentes. En este único punto, por tanto, debe ser requerido para hacer un subóptima de la elección. Ahora a jugar realmente injusto, supongamos que modificar el algoritmo para guardar el mejor dividir a este nivel en particular (porque sé donde está evaluando). Yo solo link, pero yo siempre la combinación de la segunda mejor solución, hasta que estoy en el nivel q. Con su evaluación, esta sería la mejor solución, ya que tengo el mínimo de $\delta_q$ en este mismo nivel! Pero, ¿es realmente la mejor solución si yo posponer una buena combinación?!?

Técnicamente, la solución de vinculación de la agrupación es no una sola partición en q partes, pero todo el dendrograma. Así que la solución que puede ser óptima, ya sea, porque es subóptima mucho antes.

Bueno, así que digamos que usted todavía desea restringir el algoritmo también te da k grupos, y sólo se evalúa en esta profundidad, no todo el dendrograma. En efecto, entonces creo que usted puede conseguir óptimas soluciones con algunos de los vínculos. Lo más probable debido a los valores atípicos cerca de un clúster puede sesgo de los medios de separar. Pero no estoy seguro de si hay una medida objetiva para ello.

2voto

dan gibson Puntos 1580

Una respuesta parcial a la pregunta de la siguiente manera. Solo vinculación de la agrupación es equivalente al cálculo de un mínimo árbol de expansión (las referencias son fáciles de encontrar). Si hacemos caso omiso de los lazos que el resultado es garantueed a ser una solución óptima, o uno de entre un conjunto de soluciones óptimas, en que el total de la longitud de la rama será mínimo. Creo que el ingenuo proceso de construcción también garantuees la propiedad que usted pide (al cortar un dendrograma). Como para completar el enlace de la agrupación, no sé, y creo que es una buena pregunta. Un famoso de referencia en este campo es el libro por Jardine y Simpson, matemático de la taxonomía. Llegan a la conclusión de que la única vinculación de la agrupación, con todos sus defectos, es matemáticamente y conceptualmente el stand-out método y considero que es la más atractiva. No estoy de acuerdo con eso, pero el libro es una muy buena lectura. Tal vez sus resultados implican que la propiedad que usted busca no se cumple para completar el enlace de la agrupación, pero esto es especulación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X