1 votos

¿Cómo funciona la agrupación de pirámides espaciales en Windows en lugar de las imágenes?

Una de las ventajas de utilizar la técnica SPP de https://arxiv.org/pdf/1406.4729.pdf es poder generar una representación de características de longitud fija para imágenes a diferentes escalas.

Por ejemplo, para una imagen de 224x224, con una capa conv5 de 6x6, podemos utilizar el pooling con una pirámide de 4 niveles (1x1,2x2,3x3 y 6x6). Y la misma técnica puede funcionar para imágenes con tamaños >224, pero ¿cómo funcionaría esto con imágenes/ventanas de tamaño inferior a 224? Parece que han utilizado la agrupación en ventanas de propuestas regionales para la detección. Extraen una característica de longitud fija para cada ventana de propuesta de imagen y la alimentan a un clasificador de 2 clases. En su versión de extracción de características multiescala, extraen características para una ventana de la escala de la imagen, en la que la ventana es aproximadamente 224x224 en la imagen escalada, aquí puedo entender que el conv5 sería 6x6 y podemos hacer SPP con pytramid de 4 niveles, pero para la versión sin multiescala ¿cómo funciona?

Digamos que para el tamaño 112x112 la capa conv5 sería 3x3, no estoy seguro de cómo 6x6 bins se utilizaría para la agrupación aquí. ¿La única opción es escalar la ventana más pequeña a 224, o la agrupación de contenedores de 6x6 también funciona con imágenes de menor tamaño? Si es así, ¿cuáles son los beneficios de este tipo de agrupación?

2voto

Tengerye Puntos 16

El documento original se centra demasiado en la intuición, pero ignora los detalles. En resumen, el pooling de la pirámide espacial es una forma de pooling (supongo que entiende perfectamente el pooling). En comparación con el pooling tradicional, cuyo tamaño de filtro es fijo, el tamaño de filtro del SSP depende del tamaño de la entrada y la salida. "Pirámide espacial" indica la jerarquía piramidal de estas agrupaciones (concatenándolas como una sola capa al final). Como cada agrupación tiene un tamaño fijo, toda la capa tiene un tamaño fijo.

Pongamos un ejemplo: supongamos que hay dos imágenes de diferente tamaño. Los mapas de características correspondientes después de las últimas capas constitucionales son 112x112x256, 224x224x256. Queremos una pirámide de tres niveles (1x1, 2x2, 4x4).

Entonces los tamaños de los filtros para el primer mapa de características son: 112x112, 56x56, 28x28. El tamaño de la capa es 256+4x256+16x256. Para el segundo, los tamaños de los filtros son: 224x224, 112x112, 56x56. El tamaño de la capa sigue siendo 256+4x256+16x256. Tenga en cuenta que la agrupación no tiene ningún parámetro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X