9 votos

Conjuntos de datos adecuado para el k-means

Mi tarea es la de determinar cuáles de estos conjuntos de datos que figuran en el cuadro son adecuados para los grados de k-means. Mi script dice que k-means generalmente funciona bien en cóncavo estructuras, sin embargo el tamaño de la obvia grupos de caso 1 se diferencian muy fuertemente, lo que podría indicar una posible mala interpretación de k-means, ¿verdad?

Así que mi elección sería el caso 2, ya que los tamaños de los 3 clusters son casi idénticos y las formas son - sin embargo no cóncavo - muy densa y el caso 3 tiene un montón de ruido, que k-significa que no pueda manejar. Son mis pensamientos correctos?

enter image description here

Tenga en cuenta, que en realidad no me conocen los valores para el conjunto de datos, por lo que se supone que debe estar claro en cuanto a la imagen si k-means es adecuado

8voto

Grevling Puntos 123

Yo diría que el único realmente adecuado conjunto de datos sería de 2. K-means empuja hacia especie de racimos esféricos del mismo tamaño. Digo especie porque las divisiones son más como voroinoi células. De aquí que en el primer ejemplo se podría acabar con superpuestas grupos. Hay claramente tres grupos, uno grande y dos pequeñas. Los dos pequeños se entiende por k-means, pero sería comer una sección de la grande cuando se trata de definir. Este es un ejemplo clásico llamado "ratón". Podéis ver como k-means se encarga de esto los datos en la wikipedia k-means entrada:

enter image description here

Otra cosa que cabe destacar en esta imagen es que el K-significa que no se puede entender el ruido, Se asigna siempre todos los puntos a un grupo o a otro. De hecho, es muy sensible a los valores atípicos como el propio algoritmo se basa en que, bueno, se entiende. Por lo que se deja fuera de ejemplo, el número 3. Ejemplo 2 tiene racimos de formas raras pero son aproximadamente del mismo tamaño en el espacio de características como usted puede envolver con círculos de approximetely el mismo tamaño. K-means clustering aquí haría un buen trabajo. Por supuesto, todo esto es muy subjetivo, sin supervisión de aprendizaje siempre es. Dependiendo de la tarea y de los resultados obtenidos, se puede decidir si lo que te interesa sobre el ruido y si usted puede mantener el descubierto clusters pesar de que no son "perfectos", y así sucesivamente. Diferentes algoritmos de agrupamiento basados en diferentes ideas para que enfoque el problema tratando de obtener diferentes cosas específicas. Lo que significa que el tratamiento de los datos de la única manera que saben cómo y usted tiene que decidir si la respuesta es adecuada para usted. Mira esta pregunta, que muestra a un lindo diagrama donde se puede ver lo que los diferentes algoritmos de hacer para los mismos conjuntos de datos.

4voto

Franck Dernoncourt Puntos 2128

En complemento a JEquihua la gran respuesta, me gustaría añadir 2 puntos.

El caso 3 es un buen ejemplo de un caso en que sería útil disponer de un algoritmo de clustering que no se da sólo el grupo de asignación, pero también de alguna forma, para evaluar el grado de certeza de que un punto pertenece a un grupo (por ejemplo, la pertenencia grado de fuzzy clustering), que posteriormente nos permite irregular ruidoso/ambiguo puntos.

Kaufman, Leonard, y Pedro J. Rousseeuw. "El descubrimiento de los grupos de datos: Una introducción al análisis de cluster." (2005), en el Capítulo 4 se explica este tema en más detalles. Extracto:

En una partición, cada uno de los objetos del conjunto de datos se le asigna a uno y sólo un clúster. Por lo tanto, los métodos de partición (tales como la estándar k-means el algoritmo se dice a veces para producir un duro la agrupación, ya que hacer una decisión clara para cada objeto. En el otro lado, una difusa método de agrupación permite cierta ambigüedad en los datos, que a menudo se produce.

Otra manera de detectar ruidoso/ambiguo puntos es el uso de algunos índices como el de la silueta, que proporciona una métrica para evaluar en qué punto se encuentra dentro de su grupo.

Sobre el caso 2, para reformular ligeramente lo que JEquihua dijo, k-medios de trabajo no sólo a causa de la cercanía de los puntos de cada uno de los tres grupos, pero también porque los grupos tienen el mismo tamaño. Por lo que es de alguna manera una suerte de situación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X