Recientemente, un gran cuerpo de literatura de debatir acerca de cómo extraer información de un texto escrito ha crecido. Por lo tanto me limitaré a describir cuatro hitos/modelos populares y sus ventajas/desventajas y así resaltar (algunas de) las principales diferencias (o al menos lo que yo creo que son la principal y más importante de las diferencias).
Usted habla de los "más fácil", que sería para agrupar los documentos por su coincidencia con una consulta predefinida de términos (como en el PMI). Estos léxica métodos de juego, sin embargo puede ser inexacta debido a la polisemia (varios significados) y la sinonimia (varias palabras que tienen significados similares) de términos simples.
Como remedio, la indexación semántica latente (LSI) intenta superar esto mediante la asignación de términos y documentos en una semántica latente el espacio a través de una descomposición de valor singular. El LSI resultados son más robustos indicadores de significado de los términos individuales sería. Sin embargo, un inconveniente de LSI es que carece en términos de sólidos probabilística de la fundación.
Esto fue resuelto en parte por la invención de la probabilístico LSI (pLSI). En pLSI modelos de cada palabra en un documento que se elabora a partir de un modelo de mezcla especificado a través de multinomial variables aleatorias (que también permite un mayor orden de co-ocurrencias como @sviatoslav hong mencionado). Este fue un importante paso adelante en probabilístico de texto modelado, pero estaba incompleto en el sentido de que no ofrece probabilística de la estructura en el nivel de los documentos.
Latente de Dirichlet Asignación (LDA), alivia este y fue el primer modelo probabilístico para la agrupación de texto. Blei et al. (2003) muestran que pLSI es una máxima a-posteriori estimado LDA modelo bajo un uniforme de Dirichlet antes.
Tenga en cuenta que los modelos mencionados anteriormente (LSI, pLSI, LDA) tienen en común que se basan en la "bolsa de palabras" asunción - es decir, que dentro de un documento, las palabras son intercambiables, es decir, el orden de las palabras en un documento puede ser descuidado. Esta asunción de la intercambiabilidad ofrece una mayor justificación para LDA sobre los otros enfoques: Asumiendo que no sólo las palabras dentro de los documentos son intercambiables, pero también documentos, es decir, el orden de los documentos dentro de un corpus puede ser descuidado, De Finetti del teorema establece que cualquier conjunto de intercambiable variables aleatorias tiene una representación como una mezcla de distribución. Por lo tanto, si la intercambiabilidad de los documentos y de las palabras dentro de los documentos se asume un modelo de mezcla para ambos es necesario. Exactamente esto es lo que LDA generalmente logra pero PMI o LSI no (e incluso pLSI no tan bonito como LDA).