¿Por qué utilizamos el enmascaramiento para el relleno en el codificador del Transformer?

Question

¿Por qué utilizamos el enmascaramiento para el relleno en el codificador del Transformer?

Preguntado el 20 de Agosto, 2019: Cuando se hizo la pregunta
10755 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Actualmente estoy tratando de implementar una versión PyTorch del Transformador y tenía una pregunta.

He observado que muchas implementaciones aplican una máscara no sólo al descodificador, sino también al codificador. El tutorial oficial de TensorFlow para el Transformador también afirma que el Transformador utiliza algo llamado "MultiHead Attention (with padding masking)".

Estoy confundido, ¿por qué se aplican máscaras al relleno en la secuencia del codificador?

Preguntado el 20 de Agosto, 2019 por dot

Answer 1

1 Respuestas

Answer 2

-2voto

dontloo Puntos 334

Sólo un ejemplo de por qué la gente quiere aplicar máscaras a los codificadores.

Existen modelos lingüísticos no supervisados preentrenados con una máscara unidireccional, por ejemplo GPT . Si queremos aprovechar este modelo lingüístico preentrenado para construir un modelo de traducción automática basado en codificador-decodificador, es posible que queramos aplicar la máscara unidireccional de la misma forma con la que está preentrenado.

Respondido el 29 de Agosto, 2019 por dontloo (334 Puntos )

¿Por qué utilizamos el enmascaramiento para el relleno en el codificador del Transformer?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué utilizamos el enmascaramiento para el relleno en el codificador del Transformer?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: