Entiendo que el agrupamiento difuso mediante FCM produce una matriz de miembros para el conjunto de puntos de datos que le enviamos. ¿Qué características tendrá un cluster anómalo producido durante este método? (Teniendo en cuenta que solo tengo datos sin etiquetar)
Respuestas
¿Demasiados anuncios?No creo que la FCM es especialmente adecuado método de agrupación para la detección de pequeñas cantidades de anomalías de los puntos: el problema (heredado de k-means clustering) es que no es muy adecuado para problemas donde se espera diminutos racimos entre grandes grupos. A menos que llegues a un punto de la pequeña clúster con el inicio de los centroides, usted no puede detectar este pequeño clúster, aunque está lejos de los otros puntos.
Si usted piensa que el anómalo puntos son pocos, pero se puede esperar razonablemente que estar lejos de la mayoría de alguna manera, entonces te recomiendo un análisis de cluster jerárquico que no te pierdas estos puntos. Puede que desee reducir el número de puntos de datos de antemano por alguna manera, de la agregación de las conocidas "normal", apunta.
He aquí un ejemplo en la literatura (sujeto totalmente diferente), donde un pequeño grupo que se pasa por alto (a menos que la suerte de los valores iniciales son elegidos) por k-means y FCM: Bonifacio, et al.: Imagen química del cartílago articular secciones con Raman de asignación, el empleo de uni y multi-variable métodos para el análisis de datos. El Analista de 2010, 135, 3193-3204, DOI: 10.1039/c0an00459f
Va a ser muy difícil de detectar algunos puntos que no están aún lejos de la mayoría, a menos que ponga más de información externa (= conocimiento sobre el problema) en su método de detección.
No estoy seguro de si un cerrado mundo de instalación (membresías suma a 1) es apropiado aquí: si, fueron supervisados, uno podría hablar de una clase de problemas: un definido "normal" grupo vs anómalo/sospechoso o fuera de especificación de puntos. Esto incluso podría ser considerado una clasificación (supervisado) problema, si usted tiene referencia etiquetas sólo para la clase normal. La distinción anómala frente ACEPTAR es un mal definidos problema para un mundo cerrado modelo.
No estoy seguro de qué quiere decir con un grupo anómalo.
¿Te refieres a un grupo que contiene solo valores atípicos? Los valores atípicos son puntos que se encuentran lejos del centro de los datos, por ejemplo, el percentil superior o inferior de su conjunto de datos. En general, es de esperar que un grupo formado por valores atípicos contenga pocas observaciones y se encuentre lejos del centro de los datos.
Además, para responder mejor a su pregunta, ¿puede decirme si las filas de la matriz de membresía suman 1?