50 votos

Importancia de la normalización de la respuesta local en CNN

He encontrado que Imagenet y otros grandes de la CNN hace uso de la respuesta local de la normalización de las capas. Sin embargo, no puedo encontrar mucha información sobre ellos. ¿Qué tan importantes son y cuándo se deben usar?

De http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers:

"La respuesta local de la normalización de la capa realiza una especie de "lateral la inhibición" por la normalización de más de entrada local de las regiones. En ACROSS_CHANNELS modo, el local de las regiones que se extienden a través de cerca de los canales, pero no tienen el alcance espacial (es decir, tienen forma local_size x 1 x 1). En WITHIN_CHANNEL modo, las regiones locales se extienden espacialmente, pero en canales separados (es decir, tienen la forma 1 x local_size x local_size). Cada valor de entrada es dividido por (1+(α/n)∑ix2i)β, donde n es el tamaño de cada local de la región, y la suma se toma sobre la región centrada en ese valor (cero relleno se añade si es necesario)."

22voto

McGee Puntos 31

De hecho, parece que no hay una buena explicación en un solo lugar. Lo mejor es leer los artículos de donde viene:

El original AlexNet artículo se explica un poco en la Sección 3.3:

  • Krizhevsky, Sutskever, y Hinton, ImageNet Clasificación con Profundo Convolucional Redes Neuronales, PIN de 2012. www.cs.toronto.edu/~fritz/absps/imagenet.pdf

La manera exacta de hacerlo fue propuesto en (pero no mucho extra info aquí):

  • Kevin Jarrett, Koray Kavukcuoglu, "marco aurelio" Ranzato y Yann LeCun, ¿Cuál es la mejor Multi-Etapa de la Arquitectura para el Reconocimiento de Objetos?, ICCV de 2009. yann.lecun.com/exdb/publis/pdf/jarrett-iccv-09.pdf

Fue inspirado por la neurociencia computacional:

  • S. Lyu y E. Simoncelli. No lineal de la imagen de la representación mediante la normalización divisiva. CVPR de 2008. www.cns.nyu.edu/pub/lcv/lyu08b.pdf . Este trabajo profundiza en el de matemáticas, y está de acuerdo con la respuesta de seanv507.
  • [24] N. Pinto, D. D. Cox y J. J. DiCarlo. ¿Por qué en el mundo real vi- sual de reconocimiento de objetos duro? PLoS Computational Biology, 2008. http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.0040027

17voto

JanithaR Puntos 141

Aquí está mi respuesta sugerida, aunque yo no pretendo ser un erudito. Cuando la realización de gradiente de la pendiente en el modelo lineal, la superficie de error es de segundo grado, con la curvatura determinada por $XX_T$ donde $X$ es tu entrada. Ahora el ideal de la superficie de error o de gradiente de la pendiente tiene la misma curvatura en todas las direcciones (de lo contrario el tamaño de paso es demasiado pequeño en algunas direcciones y demasiado grandes en otros). La normalización de las entradas por el reescalado de las entradas de media cero, varianza 1 ayuda y es rápido:ahora las direcciones a lo largo de cada dimensión, todos tienen la misma curvatura, lo que a su vez los límites de la curvatura en otras direcciones.

La solución óptima sería la de esfera/blanquear las entradas a cada neurona, sin embargo este es computacionalmente muy costoso. LCN puede ser justificada como un aproximado de blanqueamiento basa en la suposición de un alto grado de correlación entre los píxeles (o canales) Así que me gustaría reclamar el beneficio es que la superficie de error es más benigna para el SGD... UNA sola tasa de Aprendizaje funciona bien a través de la entrada dimensiones (de cada neurona)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X