Esta pregunta es sobre empírica (de la vida real) uso de redes neuronales. En un ML de la clase que estoy tomando ahora, el instructor fue a través de los fundamentos de las redes neuronales, desde básico de tipo perceptrón a través de básica feedfoward con 1 capa 1 capa oculta, etc.
Una cosa que me llamó la atención fue el Universal Teorema de Aproximación. George Cybenko en 1988 mostró que cualquier función se puede aproximar con precisión arbitraria por un NN con 3 capas (2 ocultas, 1 salida; véase la Aproximación por Superposiciones de una Función Sigmoidal, [Cybenko, 1989]). Por supuesto, este papel no dice cuántas unidades de cada capa tiene, o la learnability de los parámetros.
Pensé en el post de Google Street View Utiliza Un Loco de la Red Neuronal Para IDENTIFICACIÓN de los Números de la Casa en Gizmodo hablando de un 11 capas ocultas de la red utilizada por Google para la identificación de los números de la casa. De hecho, el papel real de varios dígitos Número de Reconocimiento de las Imágenes de Street View usando una Profunda Convolucional Redes Neuronales [Goodfellow et al., 2013] dice que el más profundo de la red tiene la mayor exactitud, con precisión aumenta con la profundidad de la red.
¿Por qué es este el caso? ¿Por qué "el apilamiento de capas" de trabajo? No el teorema ya digo que 2 capas ocultas son suficientes?