24 votos

¿Por qué la norma de lotes tiene escala y desplazamiento aprendibles?

Según tengo entendido, la norma por lotes normaliza todas las características de entrada a una capa a una distribución normal unitaria, $\mathcal{N}(\mu=0,\sigma=1)$ . La media y la varianza $\mu, \sigma^2$ se estiman midiendo sus valores para el minilote actual.

Tras la normalización, las entradas se escalan y desplazan mediante valores escalares:

$$\hat{x}_i' = \gamma \hat{x}_i + \beta$$

(Corrígeme si me equivoco, aquí es donde empiezo a estar un poco inseguro).

$\gamma$ y $\beta$ son valores escalares y hay un par de cada uno para cada capa normalizada por lotes. Se aprenden junto con los pesos mediante backprop y SGD.

Mi pregunta es, ¿no son estos parámetros redundantes porque las entradas pueden ser escaladas y desplazadas de cualquier manera por los pesos en la propia capa. En otras palabras, si

$$y = W \hat{x}' + b$$

y

$$\hat{x}' = \gamma \hat{x} + \beta$$

entonces

$$y = W' \hat{x} + b'$$

donde $W' = W\gamma$ y $b'=W\beta + b$ .

Entonces, ¿para qué añadirlos si la red ya es capaz de aprender la escala y el turno? ¿O es que no entiendo nada?

20voto

PaulW Puntos 11

Hay una respuesta perfecta en la Libro de aprendizaje profundo, sección 8.7.1 :

Normalizar la media y la desviación típica de una unidad puede reducir la capacidad expresiva de la red neuronal que contiene esa unidad. Para mantener la potencia expresiva de la red, es habitual sustituir el lote de activaciones de la unidad oculta H por γH+β en lugar de simplemente el H normalizado. Las variables γ y β son parámetros aprendidos que permiten que la nueva variable tenga cualquier media y desviación estándar. A primera vista, esto puede parecer inútil -¿por qué fijamos la media en 0, y luego introducimos un parámetro que permite fijarla de nuevo en cualquier valor arbitrario β?

La respuesta es que la nueva parametrización puede representar la misma familia de funciones de la entrada que la parametrización antigua, pero la nueva parametrización tiene una dinámica de aprendizaje diferente. En la antigua parametrización, la media de H venía determinada por una complicada interacción entre los parámetros de las capas inferiores a H. En la nueva parametrización, la media de γH+β viene determinada únicamente por β. La nueva parametrización es mucho más fácil de aprender con el descenso de gradiente.

3 votos

La respuesta sigue siendo demasiado vaga. Y le falta profundidad. ¿Qué significa una mejor dinámica de aprendizaje? ¿Por qué SGD funciona mejor cuando la media está determinada sólo por beta frente a cuando está determinada por los pesos de las capas anteriores y las entradas? He oído todo tipo de argumentos sobre la forma de la función de pérdida (y cómo puede estar mal condicionada) sin la normalización por lotes, pero no sé si alguien realmente ha conseguido demostrarlo o medirlo experimentalmente.

1 votos

@usuario25322 papers.nips.cc/paper/2018/file/ este documento trata exactamente de ello.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X