Una de las ventajas de utilizar la técnica SPP de https://arxiv.org/pdf/1406.4729.pdf es poder generar una representación de características de longitud fija para imágenes a diferentes escalas.
Por ejemplo, para una imagen de 224x224, con una capa conv5 de 6x6, podemos utilizar el pooling con una pirámide de 4 niveles (1x1,2x2,3x3 y 6x6). Y la misma técnica puede funcionar para imágenes con tamaños >224, pero ¿cómo funcionaría esto con imágenes/ventanas de tamaño inferior a 224? Parece que han utilizado la agrupación en ventanas de propuestas regionales para la detección. Extraen una característica de longitud fija para cada ventana de propuesta de imagen y la alimentan a un clasificador de 2 clases. En su versión de extracción de características multiescala, extraen características para una ventana de la escala de la imagen, en la que la ventana es aproximadamente 224x224 en la imagen escalada, aquí puedo entender que el conv5 sería 6x6 y podemos hacer SPP con pytramid de 4 niveles, pero para la versión sin multiescala ¿cómo funciona?
Digamos que para el tamaño 112x112 la capa conv5 sería 3x3, no estoy seguro de cómo 6x6 bins se utilizaría para la agrupación aquí. ¿La única opción es escalar la ventana más pequeña a 224, o la agrupación de contenedores de 6x6 también funciona con imágenes de menor tamaño? Si es así, ¿cuáles son los beneficios de este tipo de agrupación?