2 votos

¿Cómo se calcula la zancada en el documento Faster RCNN?

Estoy tratando de entender un párrafo del documento Faster RCNN.

Entrenamos y probamos tanto la propuesta de región como las redes de detección de objetos en imágenes de escala única [7, 5]. Reescalamos las imágenes de modo que su lado más corto sea s = 600 píxeles [5]. La extracción de características multiescala puede mejorar la precisión, pero no ofrece una buena relación entre velocidad y precisión [5]. También observamos que, para las redes ZF y VGG, el intervalo total en la última capa conv es de 16 píxeles en la imagen reescalada y, por tanto, es de 10 píxeles en una imagen PASCAL típica (500×375). Incluso con una franja tan grande se obtienen buenos resultados, aunque la precisión puede mejorar aún más con una franja más pequeña.

Me gustaría entender cómo han calculado que la zancada total en la última capa conv sea de 16 píxeles para la imagen reescalada. Me gustaría reducir este intervalo para probar las mejoras de precisión.

También estoy mirando el prototxt para formación y pruebas y no puedo entender cómo dice que la zancada es de 16 píxeles.

¿Podría mostrarme cómo calcular que la zancada es de 16 píxeles en la imagen reescalada?

1voto

mclaughlinj Puntos 1099

Antes de la última capa convolucional, en VGG hay 4 capas de agrupamiento máximo, cada una de las cuales tiene stride 2. $2^4 = 16$ por lo que desplazarse uno en el mapa de características corresponde a 16 píxeles en la entrada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X