Estoy intentando predecir el resultado de un sistema complejo mediante redes neuronales (RNA). Los valores del resultado (dependiente) oscilan entre 0 y 10.000. Las diferentes variables de entrada tienen diferentes rangos. Todas las variables tienen distribuciones aproximadamente normales.
Considero diferentes opciones para escalar los datos antes del entrenamiento. Una opción es escalar las variables de entrada (independientes) y de salida (dependientes) a [0, 1] mediante cálculo de la función de distribución acumulativa utilizando los valores de la media y la desviación estándar de cada variable, independientemente. El problema de este método es que si utilizo la función de activación sigmoidea en la salida, es muy probable que pase por alto los datos extremos, especialmente los que no se ven en el conjunto de entrenamiento
Otra opción es utilizar una puntuación z. En ese caso no tengo el problema de los datos extremos; sin embargo, estoy limitado a una función de activación lineal en la salida.
¿Cuáles son otras técnicas de normalización aceptadas que se utilizan con las RNA? He intentado buscar reseñas sobre este tema, pero no he encontrado nada útil.