Actualmente estoy tratando de implementar una versión PyTorch del Transformador y tenía una pregunta.
He observado que muchas implementaciones aplican una máscara no sólo al descodificador, sino también al codificador. El tutorial oficial de TensorFlow para el Transformador también afirma que el Transformador utiliza algo llamado "MultiHead Attention (with padding masking)".
Estoy confundido, ¿por qué se aplican máscaras al relleno en la secuencia del codificador?