Estoy tratando de entender un párrafo del documento Faster RCNN.
Entrenamos y probamos tanto la propuesta de región como las redes de detección de objetos en imágenes de escala única [7, 5]. Reescalamos las imágenes de modo que su lado más corto sea s = 600 píxeles [5]. La extracción de características multiescala puede mejorar la precisión, pero no ofrece una buena relación entre velocidad y precisión [5]. También observamos que, para las redes ZF y VGG, el intervalo total en la última capa conv es de 16 píxeles en la imagen reescalada y, por tanto, es de 10 píxeles en una imagen PASCAL típica (500×375). Incluso con una franja tan grande se obtienen buenos resultados, aunque la precisión puede mejorar aún más con una franja más pequeña.
Me gustaría entender cómo han calculado que la zancada total en la última capa conv sea de 16 píxeles para la imagen reescalada. Me gustaría reducir este intervalo para probar las mejoras de precisión.
También estoy mirando el prototxt para formación y pruebas y no puedo entender cómo dice que la zancada es de 16 píxeles.
¿Podría mostrarme cómo calcular que la zancada es de 16 píxeles en la imagen reescalada?