Como novato en NLP, estoy (profundamente) confundido por el paso intermedio en el siguiente diagrama que explica el algoritmo skip-gram. El video donde se presentó este diagrama se puede encontrar en: https://www.youtube.com/watch?v=ERibwqs9p38 (Agradezco mucho a la Universidad de Stanford y al profesor Manning por compartir el video)
Me surgieron dos preguntas:
-
En el lugar donde el vector de la palabra central multiplica la matriz de palabras de contexto para generar tres vectores UoT*Vc. Dado el mismo vector de palabra central y la misma matriz de contexto, ¿por qué salieron tres vectores diferentes?
-
La salida de la función softmax es una lista de probabilidades. Una lista de probabilidades que me muestran la probabilidad de que cada palabra en el vocabulario sea la palabra de contexto de la palabra central dada. ¿No sería suficiente tener solo un vector de este tipo? ¿Por qué los gráficos me muestran tres (diferentes) tales vectores para cada palabra de contexto?
Encontré una pregunta similar (puede que no sea exacta) en el siguiente enlace, pero aún no me sentí completamente respondido.