14 votos

¿Cuáles son algunas técnicas útiles de aumento de datos para redes neuronales convolucionales profundas?

Antecedentes: Recientemente entendí a un nivel más profundo la importancia de la ampliación de datos al entrenar redes neuronales convolucionales después de ver esta excelente charla de Geoffrey Hinton.

Él explica que las redes neuronales convolucionales de la generación actual no pueden generalizar el marco de referencia del objeto en prueba, haciendo difícil que una red comprenda verdaderamente que las imágenes reflejadas de un objeto son iguales.

Alguna investigación se ha dedicado a intentar remediar esto. Aquí tienes uno de los muchos ejemplos. Creo que esto ayuda a establecer cuán crítica es la ampliación de datos hoy en día al entrenar redes neuronales convolucionales.

Las técnicas de ampliación de datos rara vez se comparan entre sí. Por lo tanto:

Preguntas:

  • ¿Cuáles son algunos papers donde los practicantes informaron un rendimiento excepcionalmente mejor?

  • ¿Cuáles son algunas técnicas de ampliación de datos que has encontrado útiles?

1voto

Patrick Conway Puntos 11

Sec. 1: Aumento de datos Dado que las redes profundas necesitan ser entrenadas con un gran número de imágenes de entrenamiento para lograr un rendimiento satisfactorio, si el conjunto de datos de imagen original contiene un número limitado de imágenes de entrenamiento, es mejor hacer aumento de datos para impulsar el rendimiento. Además, el aumento de datos se convierte en algo que se debe hacer al entrenar una red profunda.

  • Hay muchas formas de realizar aumento de datos, como la popular inversión horizontal, recortes aleatorios y cambios de color. Además,
    puedes probar combinaciones de múltiples procesamientos diferentes, por ejemplo,
    hacer la rotación y el escalado aleatorio al mismo tiempo. Además,
    puedes intentar aumentar la saturación y el valor (componentes S y V del espacio de color HSV) de todos los píxeles elevándolos a una potencia entre 0,25 y 4 (igual
    para todos los píxeles dentro de un parche), multiplicar estos valores por un factor
    entre 0,7 y 1,4, y sumarles un valor entre -0,1 y 0,1. Además, podrías agregar un valor entre [-0,1, 0,1] al tono (componente H
    del espacio de color HSV) de todos los píxeles en la imagen/parche.

  • Krizhevsky et al. 1 propuso Fancy PCA al entrenar la famosa Alex-Net en 2012. Fancy PCA altera las intensidades de los canales RGB
    en las imágenes de entrenamiento. En la práctica, puedes realizar primero PCA en el conjunto de valores de píxeles RGB a lo largo de tus imágenes de entrenamiento. Y
    luego, para cada imagen de entrenamiento, simplemente agrega la siguiente cantidad a
    cada píxel de imagen RGB (es decir, I_{xy}=[I_{xy}^R,I_{xy}^G,I_{xy}^B]^T):
    [bf{p}_1,bf{p}_2,bf{p}_3][alpha_1 lambda_1,alpha_2 lambda_2,alpha_3
    lambda_3]^T donde, bf{p}_i y lambda_i son el i-ésimo vector propio y
    valor propio de la matriz de covarianza 3x3 de los valores de píxeles RGB,
    respectivamente, y alpha_i es una variable aleatoria extraída de una gaussiana
    con media cero y desviación estándar 0.1. Por favor, ten en cuenta que, cada
    alpha_i se extrae solo una vez para todos los píxeles de una
    imagen de entrenamiento específica hasta que esa imagen se utilice para entrenar nuevamente. Es decir,
    cuando el modelo se encuentre con la misma imagen de entrenamiento nuevamente, generará
    aleatoriamente otro alpha_i para el aumento de datos. En 1, ellos
    afirmaron que "Fancy PCA podría capturar aproximadamente una importante
    propiedad de las imágenes naturales, es decir, que la identidad del objeto es invariante a los cambios en la intensidad y el color de la iluminación". Para el
    rendimiento de clasificación, este esquema redujo la tasa de error top-1 en más del 1% en la competencia de ImageNet 2012.

(Fuente: Consejos/Trucos imprescindibles en redes neuronales profundas (por Xiu-Shen Wei))

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X