¿Hay alguna literatura acerca de la invariancia diferentes formas de traducción que puede lograrse cuando la clasificación de las imágenes con convolucionales redes neuronales? Aparte de usar la estructura de la CNN, ¿alguien intenta algo diferente? Pre-procesamiento, por ejemplo?
Respuestas
¿Demasiados anuncios?Esta respuesta por Matt Krause en Lo que es la traducción de la invariancia en la visión por ordenador y convolucional neutrales de la red? contienen algunos consejos:
Uno puede mostrar que el operador de convolución desplazamientos con respecto a la traducción. Si usted convolución $f$$g$, no importa si se traduce el convoluciona de salida $f*g$, o si usted traduce $f$ o $g$ primero, y luego de convolución. Wikipedia tiene un poco más.
Una aproximación a la traducción invariante en el reconocimiento de objetos es tomar una "plantilla" del objeto y de convolución con cada posible ubicación de los objetos en la imagen. Si usted obtiene una gran respuesta en un lugar, sugiere que un objeto que se asemeja a la plantilla se encuentra en esa ubicación. Este enfoque es a menudo llamado coincidencia de plantilla.
Usted también puede encontrar este informe técnico interesante, dan algún resumen: Leibo, Joel Z., Jim Mutch, Lorenzo Rosasco, Shimon Ullman, y Tomaso Poggio. "El aprendizaje genérico invariances en el reconocimiento de objetos: la traducción y la escala." (2010). https://scholar.google.com/scholar?cluster=17887886525836197513&hl=en&as_sdt=0,22; http://cbcl.mit.edu/cbcl/publications/ps/Efficiency_of_invariance_and_learning_CBCL_TR.pdf