83 votos

¿Por qué neuronal de la red de investigadores de atención acerca de las épocas?

Una época en el estocástico gradiente de la pendiente se define como un solo paso a través de los datos. Para cada uno de los SGD minibatch, $k$ de las muestras se toman, la pendiente calculada y los parámetros se actualizan. En la época de configuración, las muestras son extraídas sin reemplazo.

Pero esto parece innecesario. ¿Por qué no dibujar cada SGD minibatch como $k$ aleatorio entre todo el conjunto de datos en cada iteración? Más de un gran número de épocas, las pequeñas desviaciones de las muestras a las que se ven más o menos a menudo parecen ser de importancia.

75voto

Bauna Puntos 176

Además de Franck respuesta acerca de los aspectos prácticos, y la respuesta de David a punto de buscar en pequeños subgrupos, que son dos puntos importantes – de hecho, hay algunas razones teóricas para preferir el muestreo sin reemplazo. La razón es tal vez relacionado con David punto (que es esencialmente el cupón colector del problema).

En 2009, Léon Bottou en comparación con la convergencia de rendimiento en un texto en particular problema de clasificación ($n = 781,265$).

Bottou (2009). Curiosamente Rápida Convergencia de algunos Estocástico De Gradiente De La Pendiente De Los Algoritmos. Actas de la simposio sobre el aprendizaje y la ciencia de datos. (autor del pdf)

Él entrenó a una máquina de soporte vectorial a través de SGD con tres enfoques:

  • Aleatorio: sorteo al azar muestras de la totalidad del conjunto de datos en cada iteración.
  • Ciclo deorden: el conjunto de datos antes de comenzar; sorteo de lotes de forma secuencial durante las revueltas del conjunto de datos.
  • Shuffle: Shuffle el conjunto de datos antes de cada época, y sorteo de lotes sin reemplazo.

Él empíricamente analizó la convergencia $\mathbb E[ C(\theta_t) - \min_\theta C(\theta) ]$ donde $C$ es la función de costo, $\theta_t$ los parámetros en el paso $t$ de optimización, y la expectativa es que más de la mezcla de asignación de lotes.

  • Para el Azar, la convergencia fue aproximadamente en el orden de $t^{-1}$ (como era de esperar por la teoría existente en ese momento).
  • Ciclo obtienen la convergencia en el orden de $t^{-\alpha}$ ( $\alpha > 1$ , pero varía en función de la permutación, por ejemplo, $\alpha \approx 1.8$ de su Figura 1).
  • Shuffle fue más caótico, pero el mejor ajuste de la línea dio a $t^{-2}$, mucho más rápido que el Azar.

Este es su Figura 1 ilustra que: illustration of convergence at given rates

Esta tarde fue teóricamente confirmado por el papel:

Gürbüzbalaban, Ozdaglar, y Parrilo (2015). Por Qué Azar De Una Reorganización Beats Estocástico De Gradiente De La Pendiente. arXiv:1510.08560. (vídeo de la charla en el servicio de 2015)

Su prueba sólo se aplica para el caso en que la función de pérdida es fuertemente convexo, es decir, no a las redes neuronales. Es razonable esperar que, a pesar de que, al igual razonamiento se podría aplicar a la red neuronal caso (que es mucho más difícil de analizar).

26voto

Franck Dernoncourt Puntos 2128

De hecho, es bastante innecesario desde un punto de vista de rendimiento con un gran conjunto de entrenamiento, pero el uso de los tiempos, puede ser conveniente, por ejemplo:

  • da una muy buena métrica: "la red neuronal fue entrenado durante 10 épocas" es una clara declaración de que "la red neuronal fue entrenado para 18942 iteraciones" o "la red neuronal fue formado a más de 303072 muestras".
  • hay suficientes cosas al azar que sucede durante la fase de entrenamiento: peso aleatorio de inicialización, mini-lote arrastrando los pies, deserción escolar, etc.
  • es fácil de implementar
  • evita preguntarse si el conjunto de entrenamiento es suficientemente grande como para no tener épocas

[1] da una razón más, que no es muy relevante hoy en día dada la configuración del equipo:

Como para cualquier estocástico de gradiente de la pendiente método (incluyendo el mini-lote caso), es importante para la eficiencia del estimador, que cada ejemplo o minibatch ser muestreados aproximadamente de forma independiente. Porque el acceso aleatorio a la memoria (o peor aún, a disco) es caro, una buena aproximación, llamada incremental gradiente (Bertsekas, 2010), es la visita a la ejemplos (o mini-lotes) en un orden fijo correspondiente a su orden en la memoria o en disco (repetir los ejemplos en el mismo orden en una segunda época, si no estamos en el puro online caso donde cada ejemplo es visitado sólo una vez). En este contexto, lo más seguro es que si los ejemplos o mini-lotes en primer lugar se ponen en una al azar orden (para asegurarse de que este es el caso, podría ser útil para la primera mezclar los ejemplos). La convergencia más rápida se ha observado que si el orden en el que el mini-lotes son visitados se cambia para cada época, que puede ser razonablemente eficiente si el conjunto de entrenamiento mantiene en la memoria de la computadora.


[1] Bengio, Yoshua. "Recomendaciones prácticas para el gradiente basado en la formación de profundas arquitecturas." Redes neuronales: Trucos del oficio. Springer Berlin Heidelberg, 2012. 437-478.

19voto

Bou Puntos 1859

No estoy de acuerdo con algo que claramente no importa. Digamos que hay un millón de ejemplos de formación, y hacemos de diez millones de muestras.

En R, podemos ver rápidamente lo que la distribución se ve como con

plot(dbinom(0:40, size = 10 * 1E6, prob = 1E-6), type = "h")

binomial PMF

Algunos ejemplos se visitaron más de 20 veces, mientras que el 1% de ellos va a ser visitado 3 o menos veces. Si el conjunto de entrenamiento fue elegido cuidadosamente para representar la distribución esperada de los ejemplos en los datos reales, esto podría tener un impacto real en algunas zonas del conjunto de datos---especialmente cuando empiezas a hacer una división de los datos en grupos más pequeños.

Considerar el reciente caso donde uno de los votantes de Illinois efectivamente consiguió sobremuestreada 30x y cambió dramáticamente el modelo de las estimaciones para su grupo demográfico (y, en menor medida, para el conjunto de la población de estados unidos). Si nos accidentalmente de sobremuestreo "Ruffed Urogallo" imágenes tomadas en contra de verde antecedentes en los días nublados, con una profundidad de campo reducida y undersample los otros tipos de urogallo imágenes, el modelo podría asociar esas características no pertinentes con la etiqueta de categoría. Más formas hay para segmentar la información, más de estos subgrupos habrá, y más oportunidades para este tipo de error no será.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X