34 votos

(Por qué) ¿Ha caído en desgracia la SOM de estilo Kohonen?

Por lo que sé, los SOM de estilo Kohonen tuvieron un pico alrededor de 2005 y no han sido tan favorecidos recientemente. No he encontrado ningún artículo que diga que los SOM han sido subsumidos por otro método, o que se haya demostrado que son equivalentes a otra cosa (en dimensiones más altas, en cualquier caso). Pero parece que el tSNE y otros métodos reciben mucha más tinta hoy en día, por ejemplo en Wikipedia, o en SciKit Learn, y SOM se menciona más como un método histórico.

(En realidad, un artículo de Wikipedia parece indicar que los SOM siguen teniendo ciertas ventajas sobre sus competidores, pero también es la entrada más corta de la lista. EDIT: Por petición de gung, uno de los artículos en los que estoy pensando es: Reducción de la dimensionalidad no lineal . Obsérvese que sobre SOM se ha escrito menos que sobre los otros métodos. No puedo encontrar el artículo que mencionaba una ventaja que los SOM parecen conservar sobre la mayoría de los otros métodos).

¿Alguna idea? Alguien más preguntó por qué no se utilizan los SOM, y consiguió referencias de hace tiempo, y he encontrado actas de conferencias sobre SOM, pero me preguntaba si el auge de las SVM o tSNE, etc., acaba de eclipsar a los SOM en el aprendizaje automático pop.

EDIT 2: Por pura coincidencia, esta tarde estaba leyendo un estudio de 2008 sobre la reducción de la dimensionalidad no lineal, y para los ejemplos sólo menciona: Isomap (2000), incrustación localmente lineal (LLE) (2000), Hessian LLE (2003), Laplacian eigenmaps (2003), y semidefinite embedding (SDE) (2004).

18voto

DrZoddiak Puntos 114

Creo que has dado en el clavo al señalar la influencia de lo que el aprendizaje automático pregona actualmente como los "mejores" algoritmos para la reducción de la dimensionalidad. Aunque el t-SNE ha demostrado su eficacia en concursos, como el Desafío Merck Viz Personalmente, he tenido éxito implementando SOM tanto para la extracción de características como para la clasificación binaria. Si bien es cierto que hay quienes descartan los SOM sin justificación alguna, aparte de la antigüedad del algoritmo (véase este discusión En los últimos años se han publicado varios artículos en los que se han aplicado los SOM y se han obtenido resultados positivos (véase Mortazavi y otros, 2013 ; Frenkel y otros, 2013 por ejemplo). Una búsqueda en Google Scholar revelará que los SOM se siguen utilizando en varios ámbitos de aplicación. Sin embargo, como regla general, el mejor algoritmo para una tarea concreta es exactamente eso: el mejor algoritmo para una tarea concreta. Mientras que un bosque aleatorio puede haber funcionado bien para una tarea de clasificación binaria concreta, puede tener un rendimiento horrible en otra. Lo mismo ocurre con las tareas de agrupación, regresión y optimización. Este fenómeno está relacionado con el El teorema del almuerzo gratis pero ese es un tema para otra discusión. En resumen, si SOM funciona mejor para usted en una tarea particular, ese es el algoritmo que debe utilizar para esa tarea, independientemente de lo que sea popular.

5voto

Nik Puntos 107

He hecho una investigación sobre la comparación de SOM con t-SNE y más y también he propuesto una mejora en SOM que lo lleva a un nuevo nivel de eficiencia. Por favor, compruébelo aquí y hágame saber su opinión. Me encantaría tener una idea de lo que la gente piensa al respecto y si vale la pena publicarlo en python para que la gente lo use.

Enlace del IEEE al documento: http://ieeexplore.ieee.org/document/6178802/

Implementación en Matlab. https://www.mathworks.com/matlabcentral/fileexchange/35538-cluster-reinforcement--cr--phase

Gracias por sus comentarios.

2voto

Ido Weinstein Puntos 901

Mi opinión subjetiva es que los SOM son menos conocidos y se perciben como menos "atractivos" que muchos otros métodos, pero siguen siendo muy relevantes para ciertas clases de problemas. Es posible que su contribución sea significativa si se utilizan más ampliamente. Son muy valiosos en las primeras fases de la ciencia de datos exploratoria para hacerse una idea del "paisaje" o la "topología" de los datos multivariantes.

El desarrollo de bibliotecas como Somoclu e investigaciones como la de Guénaël Cabanes (entre muchos otros) demuestra que los SOM siguen siendo relevantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X