clasificación multiclase con word2vec

Question

clasificación multiclase con word2vec

Preguntado el 21 de Octubre, 2015: Cuando se hizo la pregunta
7297 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Mi problema: Los datos de entrada son un corpus de documentos cortos (unas pocas frases cada uno). En cada documento hay que clasificar algunas expresiones en categorías. Un documento debe contener algunas categorías (cada expresión tiene una sola etiqueta), y el resto son opcionales. La tarea: dada una expresión y las palabras que la rodean, clasificar su categoría.

Como solución pensé en convertir las palabras de mi vocabulario en vectores usando word2vec, y luego aplicar algún clasificador multiclase.

¿Hay algún clasificador que se ajuste especialmente bien a la salida de word2vec? He pensado en usar svm, ¿hay algún núcleo recomendado?

Preguntado el 21 de Octubre, 2015 por user80956

Answer 1

2 Respuestas

Answer 2

2voto

Even Mien Puntos 10122

Siempre es difícil evaluar a priori el rendimiento de un pretratamiento en los datos. Incluso algo tan simple como la normalización de los datos no tiene una influencia obvia en el rendimiento de los clasificadores entrenados posteriormente (ver por ejemplo este post : ¿La normalización de los datos empeora el rendimiento de la CNN? ).

Sin embargo, los siguientes enlaces pueden ayudarle a poner en práctica su idea:

Clasificación de textos con Word2Vec el autor evalúa el rendimiento de varios clasificadores en documentos de texto, con una incrustación word2vec. Resulta que el mejor rendimiento se obtiene con el clasificador de vectores de soporte lineal "clásico" y una codificación TF-IDF (el enfoque es realmente útil en términos de código, especialmente si se trabaja con python y sk-learn)

En cuanto a las SVM, hay núcleos diseñados para el texto. Una vez tuve buenos resultados con Núcleos de difusión de información y la codificación TF-IDF. O bien tiene núcleos que trabajan directamente sobre cadenas : Clasificación de textos mediante núcleos de cadenas pero sus implementaciones son más escasas...

Respondido el 24 de Agosto, 2016 por Even Mien (10122 Puntos )

Answer 3

0voto

A.Schulz Puntos 264

El mejor lugar para empezar es un núcleo lineal, ya que es a) el más sencillo y b) suele funcionar bien con datos de texto. A continuación, puede probar con núcleos no lineales, como el popular Núcleo RBF .

Respondido el 21 de Octubre, 2015 por A.Schulz (264 Puntos )

clasificación multiclase con word2vec

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

clasificación multiclase con word2vec

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: