26 votos

¿Cómo explicar la regularización del abandono en términos sencillos?

Si tiene media página para explicar abandono ¿cómo procedería? ¿Cuál es el fundamento de esta técnica?

28voto

user777 Puntos 10934

El resumen del artículo sobre el abandono escolar parece perfectamente útil.

Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov, " Abandono: Una forma sencilla de evitar el sobreajuste de las redes neuronales ", Revista de investigación sobre aprendizaje automático , 2014.

Las redes neuronales profundas con un gran número de parámetros son sistemas de aprendizaje automático muy potentes. Sin embargo, el sobreajuste es un grave problema en este tipo de redes. Además, las redes de gran tamaño son lentas de utilizar, lo que dificulta su uso combinando las predicciones de muchas redes neuronales diferentes en el momento de la prueba. El abandono es una técnica para resolver este problema. La idea clave es eliminar aleatoriamente unidades (junto con sus conexiones) de la red neuronal durante el entrenamiento. Así se evita que las unidades se adapten demasiado. Durante el entrenamiento, se toman muestras de un número exponencial de redes "adelgazadas". En el momento de la prueba, es fácil aproximar el efecto de promediar las predicciones de todas estas redes adelgazadas simplemente utilizando una única red no adelgazada que tenga pesos más pequeños. Esto reduce significativamente el sobreajuste y ofrece importantes mejoras con respecto a otros métodos de regularización. Demostramos que el dropout mejora el rendimiento de las redes neuronales en tareas de aprendizaje supervisado en visión, reconocimiento del habla, clasificación de documentos y biología computacional, obteniendo resultados de vanguardia en muchos conjuntos de datos de referencia.

Si lees el artículo, encontrarás una descripción de lo que significa el comportamiento de adaptación conjunta en el contexto del abandono escolar.

En una red neuronal estándar, la derivada que recibe cada parámetro le indica cómo debe cambiar para que la función de pérdida final se reduzca, dado lo que hacen todas las demás unidades. Por tanto, las unidades pueden cambiar de forma que corrijan los errores de las demás unidades. Esto puede dar lugar a coadaptaciones complejas. Esto, a su vez, conduce a un sobreajuste porque estas coadaptaciones no se generalizan a datos no vistos. Nuestra hipótesis es que, para cada unidad oculta, el abandono impide la coadaptación al hacer que la presencia de otras unidades ocultas no sea fiable. Por lo tanto, una unidad oculta no puede confiar en otras unidades específicas para corregir sus errores. Debe rendir bien en una amplia variedad de contextos diferentes proporcionados por las otras unidades ocultas. Para observar directamente este efecto, nos fijamos en las características de primer nivel aprendidas por redes neuronales entrenadas en tareas visuales con y sin abandono.

13voto

Franck Dernoncourt Puntos 2128

Esta respuesta es una continuación de la de Sycorax gran respuesta para los lectores que deseen ver cómo se aplica el abandono.

Cuando se aplica el dropout en redes neuronales artificiales, hay que compensar el hecho de que en el momento del entrenamiento una parte de las neuronas estaban desactivadas. Para ello, existen dos estrategias habituales:

  1. Invertir el abandono durante la fase de formación:

enter image description here

  1. Escalado de la activación en el momento de la prueba:

Le site /p se traslada del código de entrenamiento al de predicción, donde se convierte en *p :

enter image description here

enter image description here

Estas tres diapositivas proceden de conferencia 6 de Standford CS231n: Redes neuronales convolucionales para el reconocimiento visual .

11voto

Mieresa Puntos 21

El abandono momentáneo (en un lote de datos de entrada) desconecta algunas neuronas de una capa para que no aporten ninguna información ni aprendan ninguna información durante esas actualizaciones, y la responsabilidad recae en otras neuronas activas para que aprendan más y reduzcan el error.

Si tengo que explicar el abandono escolar a un niño de 6 años, así es cómo: Imagina un escenario, en una clase, un profesor hace algunas preguntas pero siempre contestan los mismos dos niños, inmediatamente. Ahora, el profesor les pide que se queden callados un rato y dejen participar a otros alumnos. De este modo, los demás alumnos aprenden mejor. Puede que contesten mal, pero el profesor puede corregirles (actualizaciones de peso). Así toda la clase(capa) aprende mejor sobre un tema.

2voto

Björn Puntos 457

Puede considerar el abandono como una probabilidad a priori sobre si una característica (o característica latente en algún estrato intermedio) no importa, es decir, una probabilidad a priori de pico (masa puntual en cero = la característica no importa) y de losa (plana = a priori no reglarizada en todo el espacio de parámetros).

Es importante destacar que esto permite no sólo regularizar el ajuste del modelo, sino también obtener incertidumbre sobre la inferencia. Esto se trata en el disertación y papeles (también este ) de Yarin Gal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X