Según tengo entendido, la norma por lotes normaliza todas las características de entrada a una capa a una distribución normal unitaria, $\mathcal{N}(\mu=0,\sigma=1)$ . La media y la varianza $\mu, \sigma^2$ se estiman midiendo sus valores para el minilote actual.
Tras la normalización, las entradas se escalan y desplazan mediante valores escalares:
$$\hat{x}_i' = \gamma \hat{x}_i + \beta$$
(Corrígeme si me equivoco, aquí es donde empiezo a estar un poco inseguro).
$\gamma$ y $\beta$ son valores escalares y hay un par de cada uno para cada capa normalizada por lotes. Se aprenden junto con los pesos mediante backprop y SGD.
Mi pregunta es, ¿no son estos parámetros redundantes porque las entradas pueden ser escaladas y desplazadas de cualquier manera por los pesos en la propia capa. En otras palabras, si
$$y = W \hat{x}' + b$$
y
$$\hat{x}' = \gamma \hat{x} + \beta$$
entonces
$$y = W' \hat{x} + b'$$
donde $W' = W\gamma$ y $b'=W\beta + b$ .
Entonces, ¿para qué añadirlos si la red ya es capaz de aprender la escala y el turno? ¿O es que no entiendo nada?