En Aprendizaje residual profundo para el reconocimiento de imágenes Estoy intentando comprender mejor los "atajos punteados" de la Figura 3, donde la primera capa convolucional de esos atajos se aplica con stride de 2. Entiendo la transformación lineal mediante convolución 1x1 para manejar el aumento de dimensión, es decir, la Ecn.(2). Es el stride de 2 lo que me confunde un poco conceptualmente.
Los autores afirman que "... cuando los atajos atraviesan mapas de características de dos tamaños, se realizan con un stride de 2". Implementar eso (downsampling por factor de 2) lo entiendo, pero tirar el 75% de los datos espaciales no parece que preserve el concepto de un "mapeo de identidad."
¿Estoy malinterpretando algo o estoy siendo innecesariamente riguroso al pensar en el "mapeo de identidades"?