Este papel/enlace habla del diseño del cuello de botella de Resnet.
No me queda nada claro cómo el diseño del cuello de botella de la derecha es equivalente al del diagrama de la izquierda y cómo reduce los parámetros. El de la izquierda tiene una entrada de 64 d, mientras que el de la derecha tiene 256 d. ¿Qué significa "d"? Si es el canal de entrada, ¿qué significa 64 en '1x1, 64'? Si la entrada a conv 1x1 es de 256 canales, entonces no significa implicitamente, que tenemos un filtro de 1x1x256 para la conv? Asi que no estoy seguro, de donde viene ese 64.
En resumen, no está muy claro cómo el lado izquierdo es equivalente al diagrama de cuello de botella de la derecha y cómo el derecho es mejor. ¿Podría alguien explicarlo?