¿Por qué el skip-gram es mejor para las palabras poco frecuentes que el CBOW?

Question

¿Por qué el skip-gram es mejor para las palabras poco frecuentes que el CBOW?

Preguntado el 6 de Noviembre, 2015: Cuando se hizo la pregunta
10892 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Me pregunto por qué el skip-gram es mejor para las palabras infrecuentes que el CBOW en word2vec. He leído la afirmación en https://code.google.com/p/word2vec/ .

Preguntado el 6 de Noviembre, 2015 por Franck Dernoncourt

Answer 1

3 Respuestas

Answer 2

25voto

Mo01 Puntos 11

Esta es mi interpretación demasiado simplificada y bastante ingenua de la diferencia:

Como sabemos, CBOW es aprender a predecir la palabra por el contexto. O maximizar la probabilidad de la palabra objetivo mirando el contexto. Y esto resulta ser un problema para las palabras raras. Por ejemplo, dado el contexto yesterday was really [...] day El modelo CBOW le dirá que lo más probable es que la palabra sea beautiful o nice . Palabras como delightful recibirá mucha menos atención del modelo, porque está diseñado para predecir la palabra más probable. Las palabras raras se suavizarán sobre un montón de ejemplos con palabras más frecuentes.

Por otro lado, el skip-gram está diseñado para predecir el contexto. Dada la palabra delightful debe entenderlo y decirnos, que hay una gran probabilidad, el contexto es yesterday was really [...] day o algún otro contexto relevante. Con skip-gram la palabra delightful no tratará de competir con la palabra beautiful pero en cambio, delightful+context se tratarán como nuevas observaciones. Debido a esto, skip-gram necesitará más datos para que aprenda a entender incluso palabras raras.

Respondido el 12 de Febrero, 2017 por Mo01 (11 Puntos )

Answer 3

18voto

user2514608 Puntos 11

En CBOW los vectores de las palabras de contexto se promedian antes de predecir la palabra central. En el skip-gram no se promedian los vectores de incrustación. Parece que el modelo puede aprender mejores representaciones para las palabras raras cuando sus vectores no se promedian con las otras palabras de contexto en el proceso de hacer las predicciones.

Respondido el 1 de Septiembre, 2016 por user2514608 (11 Puntos )

Answer 4

0voto

xsway Puntos 11

Acabo de encontrar un artículo que muestra lo contrario: que el CBOW es mejor para las palabras poco frecuentes que el skip-gram. https://arxiv.org/abs/1609.08293 . Me pregunto cuáles son las fuentes de la afirmación que se hace sobre https://code.google.com/p/word2vec/ .

Respondido el 26 de Abril, 2018 por xsway (11 Puntos )

0 votos

Creo que el propio Mikolov escribió ese conjunto de herramientas. Curiosamente, en su documento: papers.nips.cc/paper/ Dice: "Demostramos que el submuestreo de las palabras frecuentes durante el entrenamiento resulta en un aumento significativo de la velocidad (alrededor de 2x - 10x), y mejora la precisión de las representaciones de las palabras menos frecuentes", por lo que su skip-gram con la extensión del submuestreo.

Comentado el 21 de Enero, 2019 por jreisinger

¿Por qué el skip-gram es mejor para las palabras poco frecuentes que el CBOW?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué el skip-gram es mejor para las palabras poco frecuentes que el CBOW?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: