Estaba repasando el tutorial de cifar 10 en tensorflow y estaba tratando de entender por qué los chicos de tensorflow/google decidieron recortar las imágenes. La única razón que pude justificar para mí es porque querían posiblemente disminuir el tiempo de computación al entrenar la red neuronal, de lo contrario parece bastante aleatorio.
He hablado con las universidades y dan a entender que tiene que ver con el aumento del conjunto de datos, sin embargo, el aumento del conjunto de datos se puede hacer, independientemente del tamaño de la imagen original (a mi entender).
Mi suposición inicial de por qué podrían estar recortando y luego aumentando el conjunto de datos (con volteos, cambios de brillo y contrastes) es porque quieren obtener el objeto de la imagen real e ignorar los alrededores y luego aplicar la transformación. Si ese fuera el objetivo, entonces para mí lo que habría tenido sentido es no aplicar un recorte aleatorio como están haciendo (si no, ¿cómo sabes que estás obteniendo el objeto real?) y luego hacer el aumento del conjunto de datos. Como eso no es lo que ocurre, tengo mis dudas de que mi suposición sea correcta.
¿Puede alguien aclarar el motivo del recorte? Tal vez lo esté pensando demasiado, pero sería estupendo que se aclarara lo que está pasando. A mí me parece que es sólo un preprocesamiento (arbitrario) que están haciendo Dios sabe por qué.