25 votos

¿Por qué el skip-gram es mejor para las palabras poco frecuentes que el CBOW?

Me pregunto por qué el skip-gram es mejor para las palabras infrecuentes que el CBOW en word2vec. He leído la afirmación en https://code.google.com/p/word2vec/ .

25voto

Mo01 Puntos 11

Esta es mi interpretación demasiado simplificada y bastante ingenua de la diferencia:

Como sabemos, CBOW es aprender a predecir la palabra por el contexto. O maximizar la probabilidad de la palabra objetivo mirando el contexto. Y esto resulta ser un problema para las palabras raras. Por ejemplo, dado el contexto yesterday was really [...] day El modelo CBOW le dirá que lo más probable es que la palabra sea beautiful o nice . Palabras como delightful recibirá mucha menos atención del modelo, porque está diseñado para predecir la palabra más probable. Las palabras raras se suavizarán sobre un montón de ejemplos con palabras más frecuentes.

Por otro lado, el skip-gram está diseñado para predecir el contexto. Dada la palabra delightful debe entenderlo y decirnos, que hay una gran probabilidad, el contexto es yesterday was really [...] day o algún otro contexto relevante. Con skip-gram la palabra delightful no tratará de competir con la palabra beautiful pero en cambio, delightful+context se tratarán como nuevas observaciones. Debido a esto, skip-gram necesitará más datos para que aprenda a entender incluso palabras raras.

18voto

user2514608 Puntos 11

En CBOW los vectores de las palabras de contexto se promedian antes de predecir la palabra central. En el skip-gram no se promedian los vectores de incrustación. Parece que el modelo puede aprender mejores representaciones para las palabras raras cuando sus vectores no se promedian con las otras palabras de contexto en el proceso de hacer las predicciones.

0voto

xsway Puntos 11

Acabo de encontrar un artículo que muestra lo contrario: que el CBOW es mejor para las palabras poco frecuentes que el skip-gram. https://arxiv.org/abs/1609.08293 . Me pregunto cuáles son las fuentes de la afirmación que se hace sobre https://code.google.com/p/word2vec/ .

0 votos

Creo que el propio Mikolov escribió ese conjunto de herramientas. Curiosamente, en su documento: papers.nips.cc/paper/ Dice: "Demostramos que el submuestreo de las palabras frecuentes durante el entrenamiento resulta en un aumento significativo de la velocidad (alrededor de 2x - 10x), y mejora la precisión de las representaciones de las palabras menos frecuentes", por lo que su skip-gram con la extensión del submuestreo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X