8 votos

Supervisado enfoques vs tema de los modelos en el análisis de sentimiento

Yo estoy investigando el Análisis de Sentimiento a través de medios sociales, en particular la clasificación de textos de internet, tales como blogs como positivo, negativo o neutro.

La mayoría de los métodos que he encontrado para el análisis de sentimiento son supervisados (necesitan datos etiquetados para entrenar un clasificador). Sin embargo, también he encontrado un par de artículos que hacerlo mediante la articulación de tema-sentimiento modelos (sin supervisión) como este.

De acuerdo a los resultados en el tema de modelo de papeles, la principal ventaja de la supervisión de los enfoques basados en el tema de los modelos es que no necesita ninguna etiqueta de datos (aparte de las de antes "general" el sentimiento de la información, es decir, un diccionario de positivo/negativo palabras). Sin embargo, no alcanzan la precisión de un enfoque supervisado (2% menos de exactitud).

Hay otras ventajas/desventajas para el uso de tema-sentimiento de modelos para la clasificación de sentimiento en lugar de la supervisión de los enfoques?

Gracias.

6voto

LexVjatkin Puntos 126

Una desventaja de un método no supervisado como LDA es generalmente toma mucho más tiempo para entrenar en comparación con los métodos supervisados. Yo también estoy confundido sobre el aumento del 2% que mencionas, basado en la tabla 2 se parece a un 8% de diferencia entre la mejor supervisado enfoque compararon contra y sus mejores supervisión del modelo.

Mientras que en general me gusta la idea de "¿qué tan lejos se puede empujar sin supervisión de aprendizaje", el sentimiento parece un mal ajuste en pracitce. Digo esto porque en el análisis de sentimiento es uno de los ámbitos en los que es más fácil (costo, esfuerzo) para obtener la etiqueta de datos debido a la enorme cantidad de opiniones y análisis como los contenidos disponibles en internet. Si su objetivo es clasificar con precisión, incluso la supervisión de papel que enlaza parece sugerir que será mejor gastar su tiempo raspado de estos datos, en contraposición a pasar su tiempo de construcción de los diccionarios de positivo negativo palabras y la incorporación de los priores.

0voto

Erogol Puntos 379

Como una nota adicional, por el uso no supervisado del modelo, es posible tener más dominio resultado específico, especialmente si usted está interesado en un dominio de valores atípicos. En ese caso, no es fácil encontrar un buen conjunto de datos de aprendizaje supervisado, por tanto, usted podría necesitar el uso de uno de los método no supervisado. O un semi-unsupervied método como, la creación de un léxico lista para su dominio a través de uno de los algoritmo (hay algunos) que el uso que el léxico de la lista puede clasificar su texto con un método supervisado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X