1 votos

¿Por qué el tutorial de Ciphar 10 sobre TensorFlow recorta las imágenes para que sean de 24x24?

Estaba repasando el tutorial de cifar 10 en tensorflow y estaba tratando de entender por qué los chicos de tensorflow/google decidieron recortar las imágenes. La única razón que pude justificar para mí es porque querían posiblemente disminuir el tiempo de computación al entrenar la red neuronal, de lo contrario parece bastante aleatorio.

He hablado con las universidades y dan a entender que tiene que ver con el aumento del conjunto de datos, sin embargo, el aumento del conjunto de datos se puede hacer, independientemente del tamaño de la imagen original (a mi entender).

Mi suposición inicial de por qué podrían estar recortando y luego aumentando el conjunto de datos (con volteos, cambios de brillo y contrastes) es porque quieren obtener el objeto de la imagen real e ignorar los alrededores y luego aplicar la transformación. Si ese fuera el objetivo, entonces para mí lo que habría tenido sentido es no aplicar un recorte aleatorio como están haciendo (si no, ¿cómo sabes que estás obteniendo el objeto real?) y luego hacer el aumento del conjunto de datos. Como eso no es lo que ocurre, tengo mis dudas de que mi suposición sea correcta.

¿Puede alguien aclarar el motivo del recorte? Tal vez lo esté pensando demasiado, pero sería estupendo que se aclarara lo que está pasando. A mí me parece que es sólo un preprocesamiento (arbitrario) que están haciendo Dios sabe por qué.

2voto

Franck Dernoncourt Puntos 2128

El recorte se realiza efectivamente para aumentar los datos (es decir, el recorte es una estrategia de aumento de datos), ya que si se aplican dos recortes diferentes a la misma imagen, se obtienen dos imágenes diferentes. Por ejemplo, de {1}:

Para aumentar los datos, recortamos aleatoriamente las imágenes de entrada en 24 × 24 píxeles.

Como nota al margen, el Conjunto de datos CIFAR-10 consta de 60000 32x32 imágenes en color en 10 clases, con 6000 imágenes por clase. Esto significa que el recorte de 24x24 mantiene la mayor parte de la imagen.


Referencias:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X