Estoy aprendiendo la intuición detrás del mecanismo de atención de
- https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
- https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html
y hay algo que no entiendo bien. Ambas entradas hacen referencia a alguna concatenación que ocurre en la etapa de decodificación. De la lectura del documento de Bahdanau, en ninguna parte se dice que la puntuación de la alineación se basa en la concatenación del estado del decodificador ( ) y el estado oculto ( ). En Documento de Luong se conoce como el concat atención (la palabra puntuación se utiliza, sin embargo)
o en la notación de Bahdanau:
En Documento de Bahdanau la puntuación de la alineación se define como
Y la única concatenación que se produce es la de los estados ocultos hacia delante y hacia atrás en el codificador bidireccional. Parece que la definición de atención aditiva de Vaswani tiene más sentido.
¿De dónde viene esta idea de la concatenación?
Posiblemente relacionado