73 votos

Normalización y estandarización de datos en redes neuronales

Estoy intentando predecir el resultado de un sistema complejo mediante redes neuronales (RNA). Los valores del resultado (dependiente) oscilan entre 0 y 10.000. Las diferentes variables de entrada tienen diferentes rangos. Todas las variables tienen distribuciones aproximadamente normales.

Considero diferentes opciones para escalar los datos antes del entrenamiento. Una opción es escalar las variables de entrada (independientes) y de salida (dependientes) a [0, 1] mediante cálculo de la función de distribución acumulativa utilizando los valores de la media y la desviación estándar de cada variable, independientemente. El problema de este método es que si utilizo la función de activación sigmoidea en la salida, es muy probable que pase por alto los datos extremos, especialmente los que no se ven en el conjunto de entrenamiento

Otra opción es utilizar una puntuación z. En ese caso no tengo el problema de los datos extremos; sin embargo, estoy limitado a una función de activación lineal en la salida.

¿Cuáles son otras técnicas de normalización aceptadas que se utilizan con las RNA? He intentado buscar reseñas sobre este tema, pero no he encontrado nada útil.

2voto

GooberZoober Puntos 72

Bueno, [0,1] es el enfoque estándar. Para las redes neuronales, funciona mejor en el rango 0-1. El escalamiento Min-Max (o Normalización) es el enfoque a seguir.

En cuanto a los valores atípicos, en la mayoría de los casos tenemos que recortarlos, ya que los valores atípicos no son comunes y no queremos que los valores atípicos afecten a nuestro modelo (a menos que la detección de anomalías sea el problema que estamos resolviendo). Puede recortarlos basándose en la regla empírica de 68-95-99,7 o hacer un gráfico de caja, observarlo y recortarlo en consecuencia.

Fórmula MinMax - (xi - min(x)) / (max(x) - min(x)) o puede utilizar sklearn.preprocessing.MinMaxScaler

0voto

vvv Puntos 76

"Aceptado" es lo que mejor funciona para ti entonces lo aceptas.

En mi experiencia, el ajuste de una distribución de la familia de distribuciones de Johnson a cada una de las características continuas funciona bien porque las distribuciones son muy flexibles y pueden transformar la mayoría de las características uni-modales en distribuciones normales estándar. También ayudará con las características multimodales, pero el punto es que generalmente pone las características en la forma más deseable posible (los datos con distribución gaussiana estándar son ideales para trabajar - son compatibles con, y a veces óptimos para, la mayoría de los métodos estadísticos/ML disponibles).

http://qualityamerica.com/LSS-Knowledge-Center/statisticalinference/johnson_distributions.php

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X