Inspirado por esta pregunta Me pregunto si se ha hecho algún trabajo sobre modelos temáticos para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de algunos experimentos limitados, parece que los modelos temáticos estándar (LDA, etc.) funcionan bastante mal en este tipo de datos.
¿Alguien sabe de algún trabajo que se haya realizado en esta zona? Este documento habla de la aplicación de LDA a Twitter, pero realmente me interesa saber si hay otros algoritmos que funcionen mejor en el contexto de los documentos cortos.