Incluso después de buscar en Google y leer artículos de ajuste y respuestas a preguntas de ajuste aquí en StackExchange, no entiendo cómo las CNN manejan la invariancia de escala.
Encontré respuestas que parecían lógicas y que decían que sólo se hacía por medio de la agrupación, otras, igualmente sólidas, decían que era una combinación de convolución y agrupación; nadie dio una explicación basada en un ejemplo sencillo.
¿El manejo de la invariabilidad de escala está "localizado" en una capa o "repartido" en varias capas? Si es así, ¿se puede describir fácilmente el mecanismo?
¿Se necesitan imágenes con patrones de diferentes escalas en la fase de entrenamiento para entrenar la invariabilidad de escala? Si es así, eso significaría que se necesitan todos los tamaños posibles y eso no puede ser así, ¿verdad? En consecuencia, eso significaría que no se produciría ningún aprendizaje/"abstracción" real?
Un ejemplo sencillo: Una CNN muy sencilla debería aprender a identificar un símbolo concreto en las imágenes, por ejemplo, el dígito "4".
Digamos que sólo tengo imágenes de un tamaño fijo, por ejemplo, 12x12 píxeles.
¿Qué se necesita como datos de entrenamiento para detectar "4" de distinto tamaño?
Después del entrenamiento, ¿cómo detecta la CNN que un píxel de 5x5 '4' en comparación con un píxel de 10x10 '4'? ¿Qué hace en las diferentes capas?