19 votos

¿Cómo aumentar los datos y dividir el entrenamiento en validación?

Estoy realizando una clasificación de imágenes mediante aprendizaje automático.

Supongamos que tengo algunos datos de entrenamiento (imágenes) y voy a dividir los datos en conjuntos de entrenamiento y validación. Y también quiero aumentar los datos (producir nuevas imágenes a partir de las originales) mediante rotaciones aleatorias e inyección de ruido. El aumento se realiza fuera de línea.

¿Cuál es la forma correcta de aumentar los datos?

  1. En primer lugar, divida los datos en conjuntos de entrenamiento y validación y, a continuación, aumente los datos tanto en los conjuntos de entrenamiento como en los de validación.

  2. En primer lugar, divida los datos en conjuntos de entrenamiento y validación y, a continuación, realice el aumento de datos sólo en el conjunto de entrenamiento.

  3. En primer lugar, aumente los datos y, a continuación, divídalos en un conjunto de entrenamiento y otro de validación.

28voto

Aleksi Yrttiaho Puntos 4653

En primer lugar, divida los datos en conjuntos de entrenamiento y validación y, a continuación, aumente los datos del conjunto de entrenamiento.

Usted utiliza su conjunto de validación para intentar estimar cómo funciona su método con datos del mundo real, por lo que sólo debe contener datos del mundo real. Añadir datos aumentados no mejorará la precisión de la validación. En el mejor de los casos, dirá algo sobre lo bien que responde su método al aumento de datos y, en el peor, arruinará los resultados de la validación y su interpretabilidad.

9voto

dan8394 Puntos 2662

Por ejemplo, supongamos que el aumento es un desplazamiento de 1 píxel a la izquierda. Si la división no tiene en cuenta el aumento, puede obtener muestras de datos muy similares tanto en el entrenamiento como en la validación.

-1voto

Dawny33 Puntos 1811

Aumentar los datos significa añadir datos/información externa a los datos existentes que se están analizando.

Por lo tanto, como todos los datos aumentados se utilizarían para el aprendizaje automático, el proceso siguiente sería el más adecuado:

Aumentar los datos --> Dividir los datos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X