A veces veía que los datos de entrada de las redes neuronales se escalaban a $[0, 1]$ (o $[-1, 1]$ ), sino también a veces que se normalizaba.
Por ejemplo, para una imagen en escala de grises, la normalización se hacía utilizando la distribución de los distintos valores de píxeles de la imagen de entrada específica. Pero esto tiene el efecto de que diferentes imágenes (imágenes desplazadas) resultan en la misma entrada para la red neuronal? ¿No es esto malo?
¿O tiene sentido insertar simplemente una capa BatchNormalization como capa inicial de una red neuronal? En caso negativo: ¿Por qué no?
¿O, en general, no debe realizarse ninguna normalización, sino sólo escalar los datos a un nuevo intervalo específico?