Acabo de empezar a aprender sobre los transformadores y he investigado las siguientes 3 variantes
-
El original de La atención es todo lo que necesitas (Codificador y decodificador)
-
BERT (Sólo codificador)
-
GPT-2 (Sólo decodificador)
¿Cómo se decide en general si su modelo de transformador debe incluir sólo codificadores, sólo descodificadores, o ambos codificadores y descodificadores?
Por ejemplo, si quiero entrenar a un transformador para que lea una secuencia de imágenes de mi patio trasero y luego prediga si lloverá en una hora (2 clases "llover" o "no llover"), ¿este modelo de transformador debe tener generalmente sólo decodificadores?