63 votos

¿Cómo seleccionar un método de clustering? ¿Cómo validar una solución de cluster (para garantizar la elección del método)?

Uno de los mayores problemas del análisis de conglomerados es que podemos llegar a una conclusión diferente cuando nos basamos en diferentes métodos de agrupación utilizados (incluidos los diferentes métodos de vinculación en la agrupación jerárquica).

Me gustaría saber su opinión al respecto - qué método seleccionará y cómo. Se podría decir que "el mejor método de agrupación es el que da la respuesta correcta"; pero puedo cuestionar en respuesta que el análisis de conglomerados se supone que es un sin supervisión técnica - entonces, ¿cómo puedo saber qué método o vinculación es la respuesta correcta?

En general: ¿es un clustering por sí solo lo suficientemente robusto como para confiar en él? ¿O necesitamos un segundo método y obtener un resultado compartido que se base en ambos?

Mi pregunta no sólo se refiere a las posibles formas de validar / evaluar rendimiento de la agrupación, pero es más amplio - en qué nos basamos para seleccionar/preferir un método/algoritmo de clustering sobre otro. Además, ¿existe un advertencias que debemos buscar cuando seleccionamos un método para agrupar nuestros datos?

Sé que es una pregunta muy general y muy difícil de responder. Sólo me gustaría saber si tienen algún comentario o algún consejo o alguna sugerencia para que pueda aprender más sobre esto.

0 votos

Compruebe también este una pregunta similar.

0 votos

Y este uno.

2 votos

Algunos enlaces específicos sobre la validación interna y externa: este . Y este . Y que . Y que . Y que . Y este . Y yonder . Y busca más.

77voto

Uri Puntos 111

A menudo se dice que no hay ninguna otra técnica analítica que sea tan del tipo "como se siembra se siega", como lo es el análisis de conglomerados.

Puedo imaginar una serie de dimensiones o aspectos de la "rectitud" de esto o aquello método de agrupación :

  1. Metáfora de la agrupación . "He preferido este método porque constituye agrupaciones tales (o de tal manera) que se ajusta a mi concepto de agrupación en mi proyecto particular" . Cada algoritmo o subalgoritmo/método de clustering implica su correspondiente estructura/construcción/forma de un cluster. Con respecto a los métodos jerárquicos, he observado esto en uno de los puntos aquí y también aquí . Es decir, algunos métodos dan agrupaciones que son prototípicamente "tipos", otros dan "círculos [por interés]", aún otros "plataformas [políticas]", "clases", "cadenas", etc. Seleccione el método cuya metáfora de cluster le convenga. Por ejemplo, si veo mis segmentos de clientes como tipos, formas más o menos esféricas con compactación(es) en el medio, elegiré el método de enlace de Ward o K-means, pero nunca el método de enlace único, claramente. Si necesito un punto representativo focal podría utilizar el método medoid. Si necesito filtrar puntos para que sean representantes del núcleo y de la periferia, podría utilizar el método DBSCAN.

  2. Datos/supuestos del método . "He preferido este método porque la naturaleza o el formato de mis datos lo predisponen" . Este importante y vasto punto también se menciona en mi enlace anterior. Diferentes algoritmos/métodos pueden requerir diferentes tipos de datos para ellos o diferentes medidas de proximidad para ser aplicadas a los datos, y viceversa, diferentes datos pueden requerir diferentes métodos. Hay métodos para datos cuantitativos y métodos para datos cualitativos. La mezcla de características cuantitativas + cualitativas reduce drásticamente el ámbito de elección entre los métodos. El método de Ward o K-means se basan -explícita o implícitamente- en la medida de proximidad de la distancia euclidiana (al cuadrado) y no en una medida arbitraria. Los datos binarios pueden requerir medidas de similitud especiales que, a su vez, cuestionarán fuertemente el uso de algunos métodos, por ejemplo el de Ward o el de K-means, para ellos. Los grandes datos pueden necesitar algoritmos especiales o implementaciones especiales.

  3. Validez interna . "He preferido este método porque me ha proporcionado la mayoría de las agrupaciones claras, ajustadas y aisladas" . Elija el algoritmo/método que muestre los mejores resultados para sus datos desde este punto de vista. Cuanto más ajustados y densos sean los conglomerados en su interior y menos densidad haya fuera de ellos (o más separados estén los conglomerados), mayor será la validez interna. Seleccione y utilice el criterios de agrupación interna ( que son muchos - Calinski-Harabasz, Silhouette, etc.; a veces también se denominan "reglas de parada") para evaluarla. [Cuidado con el sobreajuste: todos los métodos de agrupación buscan maximizar alguna versión de la validez interna $^1$ (es lo que tiene la agrupación es sobre), por lo que la alta validez puede deberse en parte a la peculiaridad aleatoria del conjunto de datos dado; tener un conjunto de datos de prueba siempre es beneficioso].

  4. Validez externa . "He preferido este método porque me ha dado conglomerados que se diferencian por sus antecedentes o conglomerados que coinciden con los verdaderos que conozco" . Si una partición de conglomerados presenta conglomerados que son claramente diferentes en algunas características importantes de fondo (es decir, que no participaron en el análisis de conglomerados), entonces es una ventaja para el método que produjo la partición. Utilice cualquier análisis que se aplique para comprobar la diferencia; también existen una serie de útiles criterios de agrupación externa (Rand, medida F, etc.). Otra variante del caso de validación externa es cuando usted conoce de alguna manera los verdaderos clusters en sus datos (conoce la "verdad de base"), como cuando usted mismo generó los clusters. Entonces, la precisión con la que su método de clustering es capaz de descubrir los clusters reales es la medida de la validez externa.

  5. Validez cruzada . "He preferido este método porque me da agrupaciones muy similares en muestras equivalentes de los datos o extrapola bien en dichas muestras" . Existen varios enfoques y sus híbridos, algunos más factibles con algunos métodos de clustering y otros con otros métodos. Dos enfoques principales son estabilidad comprobar y generalizabilidad comprobar. Para comprobar la estabilidad de un método de agrupación, se dividen o remuestrean los datos de forma aleatoria en conjuntos parcialmente intersecados o totalmente disjuntos y se realiza la agrupación en cada uno de ellos; a continuación, se comparan las soluciones en relación con alguna característica emergente de la agrupación (por ejemplo, la ubicación de la tendencia central de una agrupación) para comprobar si es estable en todos los conjuntos. La comprobación de la generalizabilidad implica realizar la agrupación en un conjunto de entrenamiento y luego utilizar su característica o regla de agrupación emergente para asignar objetos de un conjunto de prueba, además de realizar también la agrupación en el conjunto de prueba. A continuación, se comparan los resultados de la asignación y de la agrupación de los objetos del conjunto de prueba.

  6. Interpretación . "He preferido este método porque me ha proporcionado racimos que, explicados, son los más persuasivos de que hay un sentido en el mundo" . No se trata de una estadística, sino de su validación psicológica. ¿Qué significado tienen los resultados para usted, el dominio y, posiblemente, el público/cliente? Elija el método que ofrezca los resultados más interpretables y picantes.

  7. Gregario . Algunas investigaciones regularmente y todas las investigaciones ocasionalmente dirían "He preferido este método porque ha dado con mis datos resultados similares con una serie de otros métodos entre todos los que he sondeado" . Se trata de una estrategia heurística, pero cuestionable, que parte de la base de que existen datos bastante universales o un método bastante universal.

Los puntos 1 y 2 son teóricos y preceden a la obtención del resultado; confiar exclusivamente en estos puntos es la estrategia exploratoria altiva y segura de sí misma. Los puntos 3, 4 y 5 son empíricos y siguen a la obtención del resultado; confiar exclusivamente en estos puntos es la estrategia exploratoria inquieta y que lo intenta todo. El punto 6 es creativo, lo que significa que niega cualquier resultado para tratar de justificarlo. El punto 7 es la mauvaise foi leal.

Los puntos 3 a 7 también pueden ser jueces en su selección del "mejor" número de grupos .


$^1$ Un criterio concreto de agrupación interna no es en sí mismo "ortogonal" a un método de agrupación (ni al tipo de datos). Esto plantea una cuestión filosófica sobre hasta qué punto puede ser útil un criterio sesgado o prejuiciado de este tipo (véase respuestas sólo lo noto).

1 votos

Me gustan mucho las medidas de validez interna, como la suma de las varianzas intraclúster en K-means y la agrupación jerárquica de Ward, así como los índices de Dunn. Son independientes de los datos, y a veces incluso del algoritmo de clustering, aunque algunos de ellos sólo tienen sentido con algoritmos específicos.

2 votos

@DouglasDeRizzoMeneghetti No estoy de acuerdo. No son ni independientes de los datos (hacen suposiciones muy fuertes sobre tus datos, como la linealidad y la equivalencia de los atributos) ni independientes del algoritmo de clustering. De hecho, cada medida interna es un algoritmo de agrupación propio (se podría optimizar esta función, pero suele ser demasiado cara).

2 votos

Entiendo que algunas medidas de validez interna, como la suma de varianzas intraclúster, tienen mejores resultados si las pertenencias a los clústeres se adquirieron a través de un método de agrupación que tiende a minimizar la suma de varianzas intraclúster, y que una medida de validez como los índices de Dunn asumen que los buenos clústeres son compactos y están muy separados (aunque las interpretaciones de "compacto" y "muy separado" se dejan abiertas a la interpretación), pero el hecho de que se puedan calcular estas medidas con sólo los valores de las características y las pertenencias a los clústeres de los elementos las hacen bastante versátiles.

16voto

Amadiere Puntos 5606

Hay sobre todo bandera roja criterios. Propiedades de los datos que le indican que un determinado enfoque fracasará con seguridad.

  1. si no tiene idea de cuáles son sus datos significa deja de analizarlo. solo estas adivinando animales en las nubes.

  2. si los atributos varían de escala y son no lineales o están sesgados. esto puede arruinar su análisis a menos que tenga una muy buena idea de la normalización apropiada. Deténgase y aprenda a comprender sus características, es demasiado pronto para agruparlas.

  3. si todos los atributos son equivalentes (misma escala), y lineales, y se quiere cuantificar su conjunto de datos (y el error mínimo cuadrático tiene un significado para sus datos), entonces vale la pena probar k-means. Si sus atributos son de diferente tipo y escala, el resultado no está bien definido. Contraejemplo: la edad y los ingresos. Los ingresos están muy sesgados, y x years = y dollar es una tontería.

  4. si se tiene una idea muy clara de cómo cuantificar similitud o la distancia (en un significativo manera; la capacidad de calcular algún número no es suficiente) entonces la agrupación jerárquica y DBSCAN son una buena opción. Si no tiene idea de cómo cuantificar la similitud, resuelva ese problema primero.

El problema más común es que la gente intenta volcar sus datos brutos en el clustering, cuando primero necesita entenderlos y normalizarlos, y averiguar la similitud.

Ejemplos:

  1. Píxeles de una imagen en el espacio RGB. Los mínimos cuadrados tienen cierto sentido y todos los atributos son comparables: k-means es una buena opción.

  2. Datos geográficos: los mínimos cuadrados no son muy apropiados. habrá valores atípicos. pero la distancia es muy significativa. Utilice DBSCAN si tiene mucho ruido, o HAC (clustering aglomerativo jerárquico) si tiene datos muy limpios.

  3. Especies observadas en diferentes hábitats. Los mínimos cuadrados son dudosos, pero, por ejemplo, la similitud de Jaccard es significativa. Es probable que tenga pocas observaciones y ningún hábitat "falso": utilice HAC.

0 votos

En los puntos 2 y 3 dices (non)linear attributes . ¿Qué quiere decir? ¿De qué manera un atributo "lineal"? o estás hablando de lineal relaciones ¿se trata de formas elipsoidales (y no curvas) de los racimos?

0 votos

Datos con, por ejemplo, una distribución exponencial.

0 votos

Entonces creo que definitivamente hay que definirlo en el texto, para mayor claridad, y explicar (con pocas palabras y/o enlace) por qué la variable distribuida exponencialmente es inapropiada para el análisis de conglomerados. Gracias.

4voto

Zizzencs Puntos 1358

No creo que haya una buena manera formal de hacerlo; creo que las buenas soluciones son las que tienen sentido, sustancialmente.

Por supuesto, se puede intentar dividir los datos y agruparlos varias veces y así sucesivamente, pero entonces sigue existiendo la cuestión de cuál es útil.

3 votos

Creo que el término tener sentido no se puede subrayar lo suficiente. Este es también el punto central de mi respuesta: primero hay que dar sentido a los datos.

0 votos

@Anony-Mousse, es una exageración por tu parte. Apuesto a que la gente que no sabe o se olvida de "dar sentido" a sus datos apenas visita este sitio y no hace preguntas tan buenas como la que se hace aquí.

1 votos

@ttnphns No sé con qué frecuencia visitan este sitio esas personas, y desde luego no hacen esas preguntas. Pero mucha gente espera que el análisis de cluster funcione como una función de Excel. Seleccionan los datos, hacen clic en "cluster" y salen los segmentos mágicos de clientes. Lo que nunca parece funcionar mucho mejor que el azar. Y, por ejemplo, este usuario no entendió sus datos: stats.stackexchange.com/q/195521/7828

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X