27 votos

El tema de los modelos y la palabra de co-ocurrencia de los métodos de

Tema Popular de los modelos como LDA generalmente clúster de palabras que tienden a co-ocurrir juntos en el mismo tema (clúster).

¿Cuál es la principal diferencia entre el tema de los modelos, y otras simples de co-ocurrencia de clustering basado en enfoques, como el PMI ? (PMI significa Pointwise de Información Mutua, y se utiliza para identificar las palabras que co-ocurren con una palabra dada.)

31voto

Momo Puntos 5125

Recientemente, un gran cuerpo de literatura de debatir acerca de cómo extraer información de un texto escrito ha crecido. Por lo tanto me limitaré a describir cuatro hitos/modelos populares y sus ventajas/desventajas y así resaltar (algunas de) las principales diferencias (o al menos lo que yo creo que son la principal y más importante de las diferencias).

Usted habla de los "más fácil", que sería para agrupar los documentos por su coincidencia con una consulta predefinida de términos (como en el PMI). Estos léxica métodos de juego, sin embargo puede ser inexacta debido a la polisemia (varios significados) y la sinonimia (varias palabras que tienen significados similares) de términos simples.

Como remedio, la indexación semántica latente (LSI) intenta superar esto mediante la asignación de términos y documentos en una semántica latente el espacio a través de una descomposición de valor singular. El LSI resultados son más robustos indicadores de significado de los términos individuales sería. Sin embargo, un inconveniente de LSI es que carece en términos de sólidos probabilística de la fundación.

Esto fue resuelto en parte por la invención de la probabilístico LSI (pLSI). En pLSI modelos de cada palabra en un documento que se elabora a partir de un modelo de mezcla especificado a través de multinomial variables aleatorias (que también permite un mayor orden de co-ocurrencias como @sviatoslav hong mencionado). Este fue un importante paso adelante en probabilístico de texto modelado, pero estaba incompleto en el sentido de que no ofrece probabilística de la estructura en el nivel de los documentos.

Latente de Dirichlet Asignación (LDA), alivia este y fue el primer modelo probabilístico para la agrupación de texto. Blei et al. (2003) muestran que pLSI es una máxima a-posteriori estimado LDA modelo bajo un uniforme de Dirichlet antes.

Tenga en cuenta que los modelos mencionados anteriormente (LSI, pLSI, LDA) tienen en común que se basan en la "bolsa de palabras" asunción - es decir, que dentro de un documento, las palabras son intercambiables, es decir, el orden de las palabras en un documento puede ser descuidado. Esta asunción de la intercambiabilidad ofrece una mayor justificación para LDA sobre los otros enfoques: Asumiendo que no sólo las palabras dentro de los documentos son intercambiables, pero también documentos, es decir, el orden de los documentos dentro de un corpus puede ser descuidado, De Finetti del teorema establece que cualquier conjunto de intercambiable variables aleatorias tiene una representación como una mezcla de distribución. Por lo tanto, si la intercambiabilidad de los documentos y de las palabras dentro de los documentos se asume un modelo de mezcla para ambos es necesario. Exactamente esto es lo que LDA generalmente logra pero PMI o LSI no (e incluso pLSI no tan bonito como LDA).

7voto

unaki Puntos 21

Yo podría ser de 3 años tarde, pero quiero seguir tu pregunta en el ejemplo de "alto orden de co-ocurrencias".

Básicamente, si el término t1 co-ocurre con el término t2 que co-ocurre con el término t3, entonces el término t1 es el 2do orden de co-ocurrencia con el plazo de t3. Usted puede ir a las de orden superior si quieres, pero al final el control de lo similar que dos palabras se debe.

5voto

André Puntos 4833

LDA puede capturar de orden superior de co-ocurrencias de términos (debido a la suposición de que cada tema es una distribución multinomial de términos), que no es posible simplemente computación PMI entre los términos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X