41 votos

¿Cómo funcionan las arquitecturas de cuello de botella en las redes neuronales?

Definimos una arquitectura de cuello de botella como el tipo que se encuentra en el ResNet donde [dos capas conv 3x3] se sustituyen por [una conv 1x1, una conv 3x3 y otra capa conv 1x1]. enter image description here

Tengo entendido que las capas conv 1x1 se utilizan como una forma de reducción de dimensión (y restauración), que se explica en otro puesto . Sin embargo, no tengo claro por qué esta estructura es tan eficaz como el diseño original.

Algunas buenas explicaciones podrían ser: Qué longitud de la zancada se utiliza y en qué capas? ¿Cuáles son las dimensiones de entrada y salida de cada módulo? ¿Cómo se representan los mapas de características de 56x56 en el diagrama anterior? ¿Los 64-d se refieren al número de filtros, por qué difieren de los 256-d? ¿Cuántos pesos o FLOPs se utilizan en cada capa?

Se agradece cualquier debate.

12voto

Anna Puntos 11

La arquitectura de cuello de botella se utiliza en redes muy profundas debido a consideraciones computacionales.

Para responder a sus preguntas:

  1. Los mapas de características de 56x56 no están representados en la imagen anterior. Este bloque procede de una ResNet con un tamaño de entrada de 224x224. 56x56 es la versión reducida de la entrada en alguna capa intermedia.

  2. 64-d se refiere al número de mapas de características (filtros). La arquitectura de cuello de botella tiene 256-d, simplemente porque está pensada para una red mucho más profunda, que posiblemente toma una imagen de mayor resolución como entrada y, por tanto, requiere más mapas de características.

  3. Consulte esta cifra para los parámetros de cada capa de cuello de botella en ResNet 50.

4voto

Según tengo entendido, la ilustración de la derecha muestra que la entrada a este bloque ya tiene 256 características. Así que estamos en una arquitectura ResNet y ya hemos creado 256 características (hemos perdido algunos w x h debido a la conv 3x3 antes, pero hemos ganado características en su lugar).

Sin embargo, calcular 256 canales (características) puede llevar demasiado tiempo, y los autores propusieron utilizar una capa conv 1x1 con stride 1 y padding 0 que mantiene el ancho x alto de la imagen como estaba pero mientras tanto reduce la profundidad, el número de canales de salida a 64.

Así, pero usando este cuello de botella, en la primera capa estás metiendo w x h x 256 elementos en conv 1x1 capa que pasará por sólo w x h x 64

1voto

snowflake Puntos 359

Sólo quiero responder a sus preguntas:

¿Qué longitud de zancada se utiliza y en qué capas? La zancada no es relevante en esta discusión/figura. Las "capas" se representan como rectángulos y son capas convolucionales 2d.

¿Cómo se representan los mapas de características de 56x56 en el diagrama anterior? Los mapas de características son el resultado de una capa conv. Por tanto, deben situarse justo después de los rectángulos (que son las capas convolucionales). Las dimensiones de los mapas de características no se indican en la figura, pero pueden calcularse.

¿Los 64-d se refieren al número de filtros, por qué se diferencian de los 256-d? Sí, indican el número de filtros/núcleos utilizados en esta capa. Un número menor significa que se utilizan menos filtros, lo que significa que la red tiene menos capacidad para representar/almacenar información. Mediante este mecanismo, se obtiene un cuello de botella y se supone que la red aprende a centrarse en lo más relevante y a eliminar el ruido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X