Necesito elegir un modelo para un problema de aprendizaje automático no supervisado. Hay 4 clusters en el espacio 3D. Estos son mis requisitos:
- Ejecutaré el mismo modelo varias veces con diferentes datos de entrenamiento (es para una aplicación en tiempo real).
- Se espera que el tamaño de los datos de entrenamiento sea de unos 400 puntos.
- Puedo suponer que los puntos de cada uno de los conglomerados se extraen de una distribución gaussiana. Esto no es un requisito necesario para estar presente en el modelo.
- Necesito obtener 4 puntos que representen los "centros" de las agrupaciones.
- En el tiempo de predicción, para cada nuevo punto necesito algún tipo de número para cada cluster que representará la probabilidad de pertenecer al cluster.
- Tendré muchos valores atípicos, supongo que alrededor del 30%.
He probado el modelo de mezcla gaussiana, y funciona muy bien cuando no tengo valores atípicos. Por desgracia, este modelo es muy sensible a los valores atípicos.
¿Alguna sugerencia sobre cómo manejar los valores atípicos con el modelo de mezcla gaussiana? ¿O debería ir con un modelo completamente diferente?