Estoy contribuyendo a un proyecto de software de ML y he notado algo raro en el código:
Realizan la normalización introduciendo una capa lineal justo después de las entradas. Esta capa lineal tiene el mismo número de nodos que las entradas. Nunca he oído hablar de esta práctica... ¿Cómo se normalizan las entradas?
El único comentario en el código con respecto a esto dice: We disguise standardization in the first linear layer to keep it seamlessly in a sequential PyTorch object.
Pero no entiendo cómo esto se considera "normalización".