Me pregunto si un escalado de características como éste tiene siempre sentido para las redes neuronales:
Dejemos que $T$ sea el conjunto de entrenamiento y $x_i \in \mathbb{R}^n$ con $d_i \in T$ sea el vector de características de $d_i$ . A continuación, añada otro paso de preprocesamiento para que $x_i' \gets \frac{x_i - \text{mean}(T)}{\max(T) - \min(T)}$ donde $\max$ y $\min$ se aplican por separado para cada dimensión.
Este paso de preprocesamiento garantiza que para cada característica se obtendrá una media de $0$ y un rango de 1. He oído que esto es lo deseado para las redes neuronales. ¿Conoce alguna fuente al respecto? (¿O fuentes que afirman que la normalización de características no siempre es buena?)
Nota : El rango es1, no es necesario la varianza. La varianza de una variable aleatoria $X$ se calcula así:
$$Var(X) = E(X^2) - (\underbrace{E(X)}_{=0})^2 = E(X^2)$$ .
Si tienes, por ejemplo, $X$ con $P(-0.5) = 0.5 = P(+0.5)$ se tiene una varianza de $Var(X) = E(X^2) - E(X)^2 = (0.5 \cdot 0.25 + 0.5 \cdot 0.25) - 0 = 0.25$ .
Como $\max(X) - \min(X) = 0.5 - (-0.5) = 1$ y $\text{mean}(X) = 0$ La estandarización de las características no cambiará nada
0 votos
(nótese su rango de ajuste a 1, no a la varianza). duplicado de stats.stackexchange.com/questions/41704/
0 votos
@seanv507: Gracias por la nota de alcance. Lo he arreglado y he añadido una explicación. Pero mi pregunta no es un duplicado, ya que pregunto por la referencia.
0 votos
Ignorando las redes neuronales, si estás haciendo trabajos numéricos en coma flotante con precisión limitada, la mejor precisión es cerca de 0. El rango [-1,1] tiene unos 10 bits más de precisión que el rango [999,1001].
0 votos
@MSalters: No creo que eso sea relevante. Por un lado, no puedes obtener más precisión de la que tenías antes. Cuando tu medida sólo tiene dos dígitos significativos, no hay ningún algoritmo para conseguir más. Por otro lado, eso sólo sería una razón más para aplicar siempre la normalización de características.
0 votos
@moose: Es cierto para sus mediciones, no es cierto para sus cálculos (por ejemplo, en la retropropagación iterativa). Además, recuerda que vas a calcular (y minimizar) un error que es la diferencia entre tu medición y la predicción de tu red.