Aunque una función de activación Relu puede tratar con el número de valor real, pero he intentado escalar el conjunto de datos en el rango [0,1] (min-max escala) es más eficaz antes de alimentar a la red neuronal. por otra parte, la normalización por lotes (BN) es también normalizar los datos antes de pasar a la capa de no linealidad (función de activación). Me preguntaba si el escalado min-max sigue siendo necesario cuando se aplica BN. ¿podemos realizar el escalado min-max y BN juntos?. Sería bueno si alguien me guía a la mejor comprensión
Respuestas
¿Demasiados anuncios?Como se ha mencionado, lo mejor es utilizar [-1, 1] escala min-max o media cero, estandarización de varianza unitaria. Escalar los datos en [0, 1] provocará un aprendizaje lento.
Para responder a su pregunta: Sí , aún así debería normalizar sus entradas a una red que utilice la Normalización por Lotes. Esto garantizará que las entradas de la primera capa tengan media cero y procedan de la misma distribución, mientras que la Normalización por lotes en las capas posteriores garantizará que las entradas de esas capas tengan media cero en la expectativa y que sus distribuciones no se desvíen con el tiempo.
Las razones por las que queremos una media cero y una distribución de entrada estable se tratan con más detalle en la sección 4.3 de BackProp eficiente .
En este caso, el escalado de datos sólo influiría en la primera capa de su red. También si estás escalando tu entrada es mejor escalarla a [-1, 1], pero es mejor escalarla a 0 media y 1 varianza (ya que tus pesos están probablemente inicializados para esperar tal distribución).
De todas formas, no es que vaya a suponer una gran diferencia.