15 votos

Modelos temáticos para documentos cortos

Inspirado por esta pregunta Me pregunto si se ha hecho algún trabajo sobre modelos temáticos para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de algunos experimentos limitados, parece que los modelos temáticos estándar (LDA, etc.) funcionan bastante mal en este tipo de datos.

¿Alguien sabe de algún trabajo que se haya realizado en esta zona? Este documento habla de la aplicación de LDA a Twitter, pero realmente me interesa saber si hay otros algoritmos que funcionen mejor en el contexto de los documentos cortos.

8voto

DPS Puntos 81

Tenga en cuenta que la restricción $1 \leq p \lt \infty$ es necesario aquí. Para $p = \infty$ basta con considerar una función característica de un subintervalo propio de $\mathbb{T}$ . Su idea con las funciones características puede convertirse en un argumento para $p \lt \infty$ pero lo siguiente me parece más sencillo:

  1. Desde $\mathbb{T}$ es compacto, toda función continua es uniformemente continua. Esto significa: para toda función continua $g$ y cada $\varepsilon \gt 0$ hay $\delta = \delta(g,\varepsilon) \gt 0$ tal que para todo $|t| \lt \delta$ la estimación $|g(x+t) - g(x)| \lt \varepsilon$ se mantiene. Integrando esto sobre $\mathbb{T}$ vemos que $\|g(\cdot+t) - g\|_p \leq \varepsilon$ para todos $|t|\lt \delta$ .

  2. Ahora, por cada $f \in L^p(\mathbb{T})$ y $\varepsilon \gt 0$ hay un continuo $g$ tal que $\|f-g\|_p \lt \varepsilon$ . Usando 1., esto da $$\|f(\cdot+t)-f\|_p \leq \|f(\cdot+t) - g(\cdot+t)\|_p + \|g(\cdot+t)-g\|_p + \|g-f\|_p \leq 3\varepsilon$$ para todos $|t| \lt \delta(g,\varepsilon)$ .

7voto

mdhughes Puntos 3805

Aunque no estoy muy familiarizado con su trabajo, sé que Jacob Eisenstein ha realizado trabajos de análisis de texto y modelos gráficos en datos de Twitter. En particular, este documento describe una aplicación del modelado de temas en datos de Twitter y microblogs.

Edición: en realidad, después de leer un poco más el artículo, afirman:

Sin embargo, el mensaje medio mensaje en Twitter tiene sólo dieciséis tokens de palabras, lo que es demasiado escaso para el modelado temático tradicional; en su lugar, reunimos todos los mensajes de un usuario determinado en un único documento.

Así que tal vez ese mismo documento no sea de mucha ayuda, pero quizá otras publicaciones de Eisenstein puedan guiarle en la dirección correcta.

7voto

dDebug Puntos 11

Un artículo reciente titulado " un modelo temático de biterm para textos cortos " (WWW13) ha hecho algunos progresos en este tema, y aquí está su código

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X