Modelos temáticos para documentos cortos

Question

Modelos temáticos para documentos cortos

Preguntado el 30 de Marzo, 2012: Cuando se hizo la pregunta
1839 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Inspirado por esta pregunta Me pregunto si se ha hecho algún trabajo sobre modelos temáticos para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de algunos experimentos limitados, parece que los modelos temáticos estándar (LDA, etc.) funcionan bastante mal en este tipo de datos.

¿Alguien sabe de algún trabajo que se haya realizado en esta zona? Este documento habla de la aplicación de LDA a Twitter, pero realmente me interesa saber si hay otros algoritmos que funcionen mejor en el contexto de los documentos cortos.

Preguntado el 30 de Marzo, 2012 por Martin O'Leary

Answer 1

3 Respuestas

Answer 2

8voto

DPS Puntos 81

Tenga en cuenta que la restricción $1 \leq p \lt \infty$ es necesario aquí. Para $p = \infty$ basta con considerar una función característica de un subintervalo propio de $\mathbb{T}$ . Su idea con las funciones características puede convertirse en un argumento para $p \lt \infty$ pero lo siguiente me parece más sencillo:

Desde $\mathbb{T}$ es compacto, toda función continua es uniformemente continua. Esto significa: para toda función continua $g$ y cada $\varepsilon \gt 0$ hay $\delta = \delta(g,\varepsilon) \gt 0$ tal que para todo $|t| \lt \delta$ la estimación $|g(x+t) - g(x)| \lt \varepsilon$ se mantiene. Integrando esto sobre $\mathbb{T}$ vemos que $\|g(\cdot+t) - g\|_p \leq \varepsilon$ para todos $|t|\lt \delta$ .
Ahora, por cada $f \in L^p(\mathbb{T})$ y $\varepsilon \gt 0$ hay un continuo $g$ tal que $\|f-g\|_p \lt \varepsilon$ . Usando 1., esto da $$\|f(\cdot+t)-f\|_p \leq \|f(\cdot+t) - g(\cdot+t)\|_p + \|g(\cdot+t)-g\|_p + \|g-f\|_p \leq 3\varepsilon$$ para todos $|t| \lt \delta(g,\varepsilon)$ .

Respondido el 10 de Septiembre, 2013 por DPS (81 Puntos )

Answer 3

7voto

mdhughes Puntos 3805

Aunque no estoy muy familiarizado con su trabajo, sé que Jacob Eisenstein ha realizado trabajos de análisis de texto y modelos gráficos en datos de Twitter. En particular, este documento describe una aplicación del modelado de temas en datos de Twitter y microblogs.

Edición: en realidad, después de leer un poco más el artículo, afirman:

Sin embargo, el mensaje medio mensaje en Twitter tiene sólo dieciséis tokens de palabras, lo que es demasiado escaso para el modelado temático tradicional; en su lugar, reunimos todos los mensajes de un usuario determinado en un único documento.

Así que tal vez ese mismo documento no sea de mucha ayuda, pero quizá otras publicaciones de Eisenstein puedan guiarle en la dirección correcta.

Respondido el 13 de Abril, 2012 por mdhughes (3805 Puntos )

Answer 4

7voto

dDebug Puntos 11

Un artículo reciente titulado " un modelo temático de biterm para textos cortos " (WWW13) ha hecho algunos progresos en este tema, y aquí está su código

Respondido el 28 de Noviembre, 2013 por dDebug (11 Puntos )

Modelos temáticos para documentos cortos

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Modelos temáticos para documentos cortos

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: