¿Por qué la atención de Bahdanau se llama a veces atención concat?

Question

¿Por qué la atención de Bahdanau se llama a veces atención concat?

Preguntado el 13 de Mayo, 2021: Cuando se hizo la pregunta
59 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy aprendiendo la intuición detrás del mecanismo de atención de

y hay algo que no entiendo bien. Ambas entradas hacen referencia a alguna concatenación que ocurre en la etapa de decodificación. De la lectura del documento de Bahdanau, en ninguna parte se dice que la puntuación de la alineación se basa en la concatenación del estado del decodificador ( $s_i$ ) y el estado oculto ( $h_t$ ). En Documento de Luong se conoce como el concat atención (la palabra puntuación se utiliza, sin embargo)

$\text{score}(h_t; \bar{h}_{s}) = v_a^T \tanh (W_a [h_t; \bar{h}_{s}] )$

o en la notación de Bahdanau:

$a(s_{i1}, h_j) = v_a^T \tanh (W_a [s_{i1}; h_{j}] )$

En Documento de Bahdanau la puntuación de la alineación se define como

$a(s_{i1}, h_j) = v_a^T \tanh (W_a s_{i1} + U_ah_{j} )$

Y la única concatenación que se produce es la de los estados ocultos hacia delante y hacia atrás en el codificador bidireccional. Parece que la definición de atención aditiva de Vaswani tiene más sentido.

¿De dónde viene esta idea de la concatenación?

Posiblemente relacionado

¿Es cierto que el mecanismo de atención de Bahdanau no es global como el de Luong?

Preguntado el 13 de Mayo, 2021 por Ortund

Answer 1

1 Respuestas

Answer 2

4voto

aldorado Puntos 155

El operador de punto y coma en las fórmulas denota en realidad la concatenación y la concatenación a la que se refieren en el documento (en contraposición al producto punto).

La suma en la formulación de Bahdanau con la suma de dos proyecciones es equivalente a una proyección de la concatenación de vectores ( $\oplus$ denota concatenación):

$W_a s_{i-j} + U_a h_j = (W_a \oplus U_a) \cdot (s_{i-1} \oplus h_j)$

Se deduce directamente de la definición de multiplicación de matrices. Llamemos a la dimensión de la proyección intermedia, $d_s$ dimensión del estado del decodificador, $d_h$ dimensión del estado del codificador. Entonces, para el $k$ -ésima posición en la salida:

$\left[(W_a \oplus U_a) \cdot (s_{i-1} \oplus h_j)\right]_k = \sum_{l=1}^{d_s + d_h} (W_a \oplus U_a)_{k,l} \cdot (s_{i-1} \oplus h_j)_l = \\ \sum_{l=1}^{d_s} (W_a)_{k,l} \cdot (s_{i-1})_l + \sum_{l=1}^{d_h} (U_a)_{k,l} \cdot (h_l)_l = \left[ W_a s_{i-1} \right]_k + \left[ U_a h_j \right]_k$

Así que, en la notación de Luong, $W_a \equiv W_a \oplus U_a$ en la notación de Bahdanau.

Respondido el 18 de Mayo, 2021 por aldorado (155 Puntos )

¿Por qué la atención de Bahdanau se llama a veces atención concat?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué la atención de Bahdanau se llama a veces atención concat?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: