7 votos

clasificación multiclase con word2vec

Mi problema: Los datos de entrada son un corpus de documentos cortos (unas pocas frases cada uno). En cada documento hay que clasificar algunas expresiones en categorías. Un documento debe contener algunas categorías (cada expresión tiene una sola etiqueta), y el resto son opcionales. La tarea: dada una expresión y las palabras que la rodean, clasificar su categoría.

Como solución pensé en convertir las palabras de mi vocabulario en vectores usando word2vec, y luego aplicar algún clasificador multiclase.

¿Hay algún clasificador que se ajuste especialmente bien a la salida de word2vec? He pensado en usar svm, ¿hay algún núcleo recomendado?

2voto

Even Mien Puntos 10122

Siempre es difícil evaluar a priori el rendimiento de un pretratamiento en los datos. Incluso algo tan simple como la normalización de los datos no tiene una influencia obvia en el rendimiento de los clasificadores entrenados posteriormente (ver por ejemplo este post : ¿La normalización de los datos empeora el rendimiento de la CNN? ).

Sin embargo, los siguientes enlaces pueden ayudarle a poner en práctica su idea:

Clasificación de textos con Word2Vec el autor evalúa el rendimiento de varios clasificadores en documentos de texto, con una incrustación word2vec. Resulta que el mejor rendimiento se obtiene con el clasificador de vectores de soporte lineal "clásico" y una codificación TF-IDF (el enfoque es realmente útil en términos de código, especialmente si se trabaja con python y sk-learn)

En cuanto a las SVM, hay núcleos diseñados para el texto. Una vez tuve buenos resultados con Núcleos de difusión de información y la codificación TF-IDF. O bien tiene núcleos que trabajan directamente sobre cadenas : Clasificación de textos mediante núcleos de cadenas pero sus implementaciones son más escasas...

0voto

A.Schulz Puntos 264

El mejor lugar para empezar es un núcleo lineal, ya que es a) el más sencillo y b) suele funcionar bien con datos de texto. A continuación, puede probar con núcleos no lineales, como el popular Núcleo RBF .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X