¿Es una práctica habitual aplicar el aumento de datos sólo al conjunto de entrenamiento, o tanto al conjunto de entrenamiento como al de prueba?
Respuestas
¿Demasiados anuncios?En cuanto al concepto de aumento, es decir, hacer que el conjunto de datos sea mayor por alguna razón, tenderíamos a aumentar sólo el conjunto de entrenamiento. Evaluaríamos el resultado de diferentes enfoques de aumento en un conjunto de validación.
Sin embargo, como señala @Łukasz Grad, es posible que tengamos que realizar con el conjunto de prueba un procedimiento similar al que se hizo con el conjunto de entrenamiento. Esto suele hacerse para que los datos de entrada del conjunto de prueba se parezcan lo más posible a los del conjunto de entrenamiento. Por ejemplo, @Łukasz Grad señala el ejemplo del recorte de imágenes, en el que tendríamos que recortar también las imágenes de prueba para que tuvieran el mismo tamaño que las de entrenamiento. Sin embargo, en el caso de las imágenes de entrenamiento, podríamos utilizar cada imagen de entrenamiento varias veces, con recortes en diferentes ubicaciones/conjuntos. En el momento de la prueba, lo más probable es que hagamos un único recorte centrado o recortes aleatorios y saquemos una media.
Ejecutar el procedimiento de aumento con datos de prueba no es hacer que los datos de prueba sean más grandes/más precisos, sino simplemente hacer que los datos de entrada del conjunto de prueba se parezcan a los datos de entrada del conjunto de entrenamiento, para que podamos introducirlos en la misma red (por ejemplo, las mismas dimensiones). Nunca consideraríamos que el conjunto de prueba es "mejor" de algún modo aplicando un procedimiento de aumento. Al menos, no es algo que yo haya visto nunca.
Por otra parte, para el conjunto de entrenamiento, el objetivo del aumento es reducir el sobreajuste durante el entrenamiento. Y evaluamos la calidad del aumento comparando el modelo entrenado con nuestro conjunto de prueba/validación más o menos fijo.
Normalmente, el aumento de datos para el entrenamiento de redes neuronales convolucionales sólo se realiza en el conjunto de entrenamiento. No estoy seguro de qué beneficio tendría aumentar los datos de prueba, ya que el valor de los datos de prueba es principalmente para la selección y evaluación de modelos y estás añadiendo ruido a la medición de esas cantidades.
Como complemento a las respuestas, permítanme añadir mis dos centavos en relación con el aumento de datos en tiempo de prueba.
El aumento de datos también puede realizarse durante el tiempo de prueba con el objetivo de reducir la varianza. Puede realizarse tomando la media de las predicciones de las versiones modificadas de la imagen de entrada.
El aumento del conjunto de datos puede considerarse una forma de preprocesar únicamente el conjunto de entrenamiento. El aumento del conjunto de datos es una forma excelente de reducir el error de generalización de la mayoría de los modelos de visión por ordenador. Una idea relacionada aplicable en el momento de la prueba es mostrar al modelo muchas versiones diferentes de la misma entrada (por ejemplo, la misma imagen recortada en lugares ligeramente diferentes) y hacer que las diferentes instancias del modelo voten para determinar la salida. Esta última idea puede interpretarse como un enfoque de conjunto, y ayuda a reducir el error de generalización. ( Libro de aprendizaje profundo, capítulo 12 )
Es una práctica muy común aplicar el aumento del tiempo de prueba. AlexNet y ResNet lo hacen con la técnica 10-crop (tomando parches de las cuatro esquinas y el centro de la imagen original y también reflejándolos). Inception va más allá y genera 144 parches en lugar de sólo 10. Si consultas Kaggle y otras competiciones, la mayoría de los ganadores también aplican el aumento en tiempo de prueba.
Soy autor de un documento sobre el aumento de datos ( código ), en el que experimentamos con el aumento del entrenamiento y las pruebas para la clasificación de lesiones cutáneas (una tarea con pocos datos). En algunos casos, el uso de un fuerte aumento de datos solo en el entrenamiento es marginalmente mejor que no usar aumento de datos, mientras que el uso de aumento de entrenamiento y prueba aumenta el rendimiento del modelo por un margen muy significativo.