2 votos

Detección de valores atípicos en los métodos de agrupación

Estoy en medio de un análisis de resultados para algunos métodos de clustering, haciendo pruebas de calidad para diferentes resultados de clustering procedentes de un conjunto de datos de entrada singular en el que se intercambian los métodos de preprocesamiento y limpieza de datos.

Hasta ahora, los resultados de la agrupación de conjuntos de datos a los que se ha aplicado cualquier técnica de detección de valores atípicos muestran un rendimiento deficiente. Por lo tanto, me preguntaba si merece la pena aplicar una técnica de detección de valores atípicos para la agrupación. Mis resultados particulares dicen que no, pero me gustaría conocer vuestras opiniones desde una perspectiva más amplia.

En caso necesario, los métodos de agrupación utilizados son: K-means, mapas SOM y clustering jerárquico. ¡¡¡Gracias!!!

1voto

Tony BenBrahim Puntos 3827

En realidad, depende de sus datos, del algoritmo de agrupación que utilice y de su método de detección de valores atípicos. Consideremos el algoritmo K-means. Si su conjunto de datos tiene "valores atípicos", éstos pueden afectar al resultado del clustering desplazando los centros de los clusters. Tenga cuidado de no mezclar datos atípicos con puntos de datos ruidosos. El ruido es un efecto aleatorio sobre los datos y puede aparecer en todas direcciones. Los valores atípicos son puntos de datos únicos, en su mayoría aislados, que se alejan del resto de los datos.

Si no tiene valores atípicos, la detección de valores atípicos puede perjudicar sus datos al eliminar grupos pequeños o eliminar sólo una parte de un ruido disperso.

1voto

sammyo Puntos 245

Esto es tanto una discusión como una respuesta, y dudo que haya una única "respuesta".

Estoy a mitad de camino a través de un clase de clustering para R en DataCamp con Dmitriy Gorenshteyn. Me estoy dando cuenta de que he perdido muchas horas de mi vida intentando hacer clustering por ensayo y error.

Para gestionar los valores atípicos sería estupendo omitir/agrupar los valores atípicos en su propio conglomerado de modo que sólo quedaran los significativos, pero esto no es posible ya que no existe una medida de similitud para unir los valores atípicos.

Por lo tanto, creo que tiene más sentido dividir por la altura que desee (en lugar de los k grupos que espera), y sólo mantener los clusters con medidas de similitud altas / recuentos relativamente altos. Con la agrupación jerárquica, acabará teniendo muchos "conglomerados" que en realidad son observaciones individuales y que pueden considerarse valores atípicos.

Parece que DBSCAN es el verdadero camino a seguir (gran sugerencia de @stephan-kolassa).

Para mí tiene mucho más sentido ahora darme cuenta de que a menudo la mayoría de las observaciones pueden no pertenecer a un grupo.

Que la métrica de distancia (máx., mín., media) debe influir en cómo se incluyen o excluyen los valores atípicos de los conglomerados, pero no estoy seguro de qué medida sería mejor para gestionar los valores atípicos. Tal vez actualice mi respuesta más tarde, o alguien más proporcione una respuesta mejor en el futuro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X