20 votos

¿Por qué utilizamos el enmascaramiento para el relleno en el codificador del Transformer?

Actualmente estoy tratando de implementar una versión PyTorch del Transformador y tenía una pregunta.

He observado que muchas implementaciones aplican una máscara no sólo al descodificador, sino también al codificador. El tutorial oficial de TensorFlow para el Transformador también afirma que el Transformador utiliza algo llamado "MultiHead Attention (with padding masking)".

Estoy confundido, ¿por qué se aplican máscaras al relleno en la secuencia del codificador?

-2voto

dontloo Puntos 334

Sólo un ejemplo de por qué la gente quiere aplicar máscaras a los codificadores.

Existen modelos lingüísticos no supervisados preentrenados con una máscara unidireccional, por ejemplo GPT . Si queremos aprovechar este modelo lingüístico preentrenado para construir un modelo de traducción automática basado en codificador-decodificador, es posible que queramos aplicar la máscara unidireccional de la misma forma con la que está preentrenado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X