Definimos una arquitectura de cuello de botella como el tipo que se encuentra en el ResNet donde [dos capas conv 3x3] se sustituyen por [una conv 1x1, una conv 3x3 y otra capa conv 1x1].
Tengo entendido que las capas conv 1x1 se utilizan como una forma de reducción de dimensión (y restauración), que se explica en otro puesto . Sin embargo, no tengo claro por qué esta estructura es tan eficaz como el diseño original.
Algunas buenas explicaciones podrían ser: Qué longitud de la zancada se utiliza y en qué capas? ¿Cuáles son las dimensiones de entrada y salida de cada módulo? ¿Cómo se representan los mapas de características de 56x56 en el diagrama anterior? ¿Los 64-d se refieren al número de filtros, por qué difieren de los 256-d? ¿Cuántos pesos o FLOPs se utilizan en cada capa?
Se agradece cualquier debate.