6 votos

¿Alternativas a la bolsa de palabras basado en clasificadores para la clasificación de texto?

La mayoría de los clasificadores de texto se basa en el enfoque de la bolsa de palabras donde se pierde el contexto que aparece una palabra en particular. Como una solución (solución simple?) podemos utilizar n-grams como características. ¿Pero hay alguna clasificadores que "esencial" la idea y modelo que de alguna manera antes de entrenar?

4voto

Me sugieren dos alternativas, que han sido ampliamente utilizados en la Clasificación de textos:

  • Mediante la Indexación Semántica Latente, que consiste en la aplicación de la Descomposición de Valor Singular para el DocumentXTerm de la matriz con el fin de identificar la información pertinente (concepto) de los componentes, o en otras palabras, pretende grupo de palabras en clases que representan conceptos o campos semánticos.
  • El uso de una base de datos léxica como WordNet o BabelNet conceptos para el índice de los documentos, permitiendo a la semántica nivel de comparación de documentos. Este enfoque no es estadística, y se enfrenta a un problema con la Desambiguación de sentidos de palabras.

Ambos métodos pueden ser aplicados antes del entrenamiento. Ninguno de ellos el objetivo de la captura de el orden de las palabras.

2voto

Eric Puntos 1

La continua representación de palabra usando Redes Neuronales es ampliamente usado para representar las palabras. Sorprendentemente, tiene la capacidad de modelar el contexto semántico de las palabras, es decir, detectar palabras similares y ponerlos juntos en el espacio de características.

Usted puede utilizar el word2vect herramienta para procesar un gran corpus de texto y crear la palabra vector. Vale la pena señalar que para el dominio específico que usted necesita utilizar un dominio específico de corpus para la construcción de la palabra vectores.

1voto

Master_Yi Puntos 6

Usted debe echar un vistazo en los modelos log-lineales; definitivamente es una opción válida en su situación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X