10 votos

¿Por qué funciona "más capas de la pila"?

Esta pregunta es sobre empírica (de la vida real) uso de redes neuronales. En un ML de la clase que estoy tomando ahora, el instructor fue a través de los fundamentos de las redes neuronales, desde básico de tipo perceptrón a través de básica feedfoward con 1 capa 1 capa oculta, etc.

Una cosa que me llamó la atención fue el Universal Teorema de Aproximación. George Cybenko en 1988 mostró que cualquier función se puede aproximar con precisión arbitraria por un NN con 3 capas (2 ocultas, 1 salida; véase la Aproximación por Superposiciones de una Función Sigmoidal, [Cybenko, 1989]). Por supuesto, este papel no dice cuántas unidades de cada capa tiene, o la learnability de los parámetros.

Pensé en el post de Google Street View Utiliza Un Loco de la Red Neuronal Para IDENTIFICACIÓN de los Números de la Casa en Gizmodo hablando de un 11 capas ocultas de la red utilizada por Google para la identificación de los números de la casa. De hecho, el papel real de varios dígitos Número de Reconocimiento de las Imágenes de Street View usando una Profunda Convolucional Redes Neuronales [Goodfellow et al., 2013] dice que el más profundo de la red tiene la mayor exactitud, con precisión aumenta con la profundidad de la red.

¿Por qué es este el caso? ¿Por qué "el apilamiento de capas" de trabajo? No el teorema ya digo que 2 capas ocultas son suficientes?

12voto

Jan Kukacka Puntos 1027

El universal aproximación teorema es principalmente una prueba de que para cada asignación continua no existe una red neuronal de la estructura descrita con un peso de configuración que se aproxima a lo que la asignación a una precisión arbitraria.

Es no dar ninguna prueba de que esta configuración de peso puede ser aprendido a través de los tradicionales métodos de aprendizaje, y que se basa en el hecho de que hay suficiente unidades en cada capa, pero realmente no sabes lo que es "suficiente". Por estas razones, la UAT tiene muy poco uso práctico.

Profundo de las redes tienen multitud de beneficios a lo largo de poca profundidad:

  1. Funciones jerárquicas:

    Profundo de los métodos de aprendizaje objetivo de aprendizaje de la función de jerarquías con las características de los altos niveles de la jerarquía formada por la composición de menor nivel de características. Automáticamente funciones de aprendizaje en varios niveles de abstracción que permite a un sistema para aprender las funciones complejas de asignación de la entrada a la salida directamente de los datos, sin depender completamente humanos elaborado características. [1]

  2. Distribuido representaciones:

    Además de la profundidad de la arquitectura, nos hemos encontrado con que otro ingrediente es crucial: distribuido representaciones. (...) la mayoría de los no-paramétrico de algoritmos de aprendizaje sufren de la llamada " maldición de la dimensionalidad. (...) Esa maldición se produce cuando la única manera de que un algoritmo de aprendizaje se generaliza a un nuevo caso x es explotando sólo un raw noción de similitud (...) entre los casos. Normalmente, esto se hace por el alumno busca en sus ejemplos de formación para los casos que están cerca de x (...). Imagínate tratando de aproximar una función por muchos pequeños lineal o constante de las piezas. Necesitamos al menos un ejemplo de cada pieza. Podemos averiguar lo que cada pieza debe verse como buscando en su mayoría en los ejemplos en el vecindario de cada pieza. Si la función de destino tiene una gran cantidad de variaciones, tenemos en consecuencia muchos ejemplos de formación. En la dimensión d (...), el número de variaciones pueden crecer exponencialmente con el d, por lo tanto el número de ejemplos. Sin embargo, (...) podemos obtener buenos resultados cuando se trata de discriminar entre dos muy complicado regiones (colectores), por ejemplo, asociado con dos clases de objetos. Aunque cada colector puede tener muchas variaciones, que pueden ser separables por un suave (tal vez incluso lineal) de la decisión de la superficie. Esa es la situación en donde los locales no paramétrico de trabajo de los algoritmos. (...)

    Distribuido representaciones son transformaciones de los datos que de forma compacta la captura de muchos factores diferentes de las variaciones presentes en los datos. Porque muchos ejemplos nos puede informar acerca de cada uno de estos factores, y debido a que cada factor puede decirnos algo acerca de los ejemplos que están muy lejos de los ejemplos de formación, es posible generalizar no localmente, y escapar de la maldición de la dimensionalidad. [1]

    Esto se puede traducir en imágenes:

    Un no-representación distribuida (aprendido por una red superficial) que tiene que asignar una salida a cada elemento del espacio de entrada (representado por el color hypercubes). Sin embargo, el número de piezas (y por lo tanto el número de puntos de entrenamiento necesario para aprender de esta representación) crece exponencialmente con la dimensionalidad:

    Curse of dimensionality. Image source: http://www.iro.umontreal.ca/~bengioy/yoshua_en/research.html

    Por otro lado, distribuidos representaciones no intente describir completamente cada pieza del espacio de entrada. En su lugar, la partición del espacio mediante el aislamiento de los conceptos simples que pueden ser más tarde se fusionaron para proporcionar información compleja. Vea a continuación cómo K hyperplanes dividir el espacio en el 2$^K$ regiones:

    Distributed representation. Image source: http://www.iro.umontreal.ca/~bengioy/yoshua_en/research.html

    (Imágenes de [1])

    Para obtener más información acerca de representaciones distribuidas, también recomiendo este hilo en Quora: Aprendizaje Profundo: ¿Qué se entiende por una representación distribuida?

  3. En teoría, en lo profundo de las redes, se puede emular superficial redes:

    Consideremos una menor arquitectura y sus más profundas contraparte que añade más capas sobre ella. Existe una solución por medio de la construcción a lo más profundo de modelo: el agregado de capas de asignación de identidad, y el resto de las capas se copian de los sabios superficiales modelo. La existencia de esta construido solución indica que una profunda modelo no debe producir mayor error en el entrenamiento de su menor contraparte. [2]

    Tenga en cuenta que esto también es un resultado teórico; como el citado papel de los estados, empíricamente profundo redes (w/o residual de conexiones), la experiencia de "degradación del rendimiento".


[1]: http://www.iro.umontreal.ca/~bengioy/yoshua_en/research.html

[2]: Profundidad Residual de Aprendizaje para el Reconocimiento de Imagen (he et al., 2015)

1voto

ALEX Puntos 12

Tu observación es correcta, como el Universal EN no tiene en cuenta los tamaños de las capas. En situaciones de la vida real sin embargo, el peso inicializaciones, las tasas de aprendizaje y parámetros similares pueden afectar significativamente el aprendizaje. Curiosamente, gráfico-aprendizaje basado en tareas, dos capas ocultas aparecen como el número óptimo de capas, sin embargo, esto no es normalmente el caso de las imágenes.

Además, no es posible tener un número infinito de unidades en una sola capa, y por lo tanto más capas se utilizan para la construcción de orden superior generalizaciones como que simplemente funciona. Queda abierta una brecha en la comprensión de exactamente cómo las redes neuronales, especialmente los más profundos aprender.

1voto

user134504 Puntos 18

En teoría, usted podría conseguir el mismo resultado con una sola capa oculta, como el teorema sugiere.

En la práctica, como se nota: "este documento no dice cuántas unidades de cada capa tiene". Esto es muy importante porque el número de unidades requeridas en una sola capa oculta de la red de manera exponencial alta, por lo que cualquier aprendizaje requerirá de una inabarcable cantidad de tiempo.

La adición de capas ayuda a mantener el número total de unidades de baja, y por consecuencia el tiempo de entrenamiento será más rápido también.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X