Últimamente he estado trabajando con grandes conjuntos de datos y he encontrado muchos artículos sobre métodos de streaming. Por nombrar algunos:
- Seguir al Líder Regularizado y Descenso Espejo: Teoremas de equivalencia y regularización L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Aprendizaje por streaming: SVM de una sola pasada ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publicaciones/PegasosMPB.pdf
- o aquí : ¿Puede la SVM aprender de un ejemplo a la vez?
- Bosques aleatorios en flujo ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Sin embargo, no he podido encontrar documentación sobre la comparación entre ellas. Todos los artículos que he leído parecen realizar experimentos con conjuntos de datos diferentes.
Conozco sofia-ml, vowpal wabbit, pero parece que implementan muy pocos métodos, ¡en comparación con la enorme cantidad de métodos existentes!
¿Los algoritmos menos habituales no tienen suficiente rendimiento? ¿Hay algún artículo que intente revisar tantos métodos como sea posible?