Ya que mencionas el universal teorema de aproximación, creo que la explicación que usted está buscando es uno en el marco de la teoría de la aproximación. Permítanme recordar un par de resultados y un marco adecuado de abajo y al final yo también adress polinomio de Fourier y aproximación.)
En ese sentido, hay muchas obras, y voy a enumerar un par de ellos a continuación, que muestran que en el fondo de las redes para permitir una más eficiente aproximación superficial de las redes.
1. Teoría de la aproximación de feed-forward redes
Para entender mejor esto debemos dar la complejidad de la medida a las redes neuronales. Recordemos que un feed-forward de la red neuronal es una función de la forma
$$
\Phi(x) = T_L(\rho(T_{L-1}(\rho(\dots \rho(T_1(x)))))),
$$
donde $\rho:\mathbb{R} \to \mathbb{R} $ es la llamada función de activación, que se aplican coordinar sabio aquí. Los mapas de $T_\ell: \mathbf{R}^{N_{\ell-1}} \to \mathbf{R}^{N_\ell}$ son afines lineal mapas, $N_{\ell-1} \in \mathbb{N}$, para todos los $\ell \in \{1, \dots, L+1\}$, e $L$ es el número de capas. Aquí $\Phi$ es un mapa de $N_0$ a $N_L$. En esta notación, el número de $N_{\ell}$ se corresponde con el número de neuronas en la $\ell$'s de la capa.
En la mayoría de las obras sobre este tema, la gente ahora medir la complejidad de una red en una de dos maneras:
- Contar el número de neuronas: $N(\Phi) := \sum_{\ell = 1}^L N_\ell$.
- Contar el número de parámetros. Por lo tanto, se observa que el $T_\ell = A_\ell(\cdot) + b_\ell$ para una matriz de $A_\ell$ y un vector $b_\ell$. Ahora una manera de medir la complejidad de la red completa es mediante el número de distinto de cero entradas de ambos $A_\ell$ e $b_\ell$: $W(\Phi) := \sum_{\ell = 1}^L \|A_\ell\|_0 + \|b_\ell\|_0$. Aquí $\|.\|_0$ indica el número de distinto de cero entradas de una matriz por vector.
Ahora hemos asociado una complejidad a medida para cada red. Esto significa, que podemos pedir a una más matizada pregunta que la de el universal teorema de aproximación.
Red neuronal teoría de la aproximación:
Deje $f \in L^\infty(\mathbb R^d)$ e $\epsilon>0$, no existe una red de $\Phi$ con $L$ capas que
$$
\|f\Phi\|_\infty \leq \epsilon,
$$
y cuán grande do $N(\Phi), W(\Phi)$ necesita?
2. El poder de profundidad
Ahora lo hermoso de la pregunta anterior es que para los tipos de funciones de $f$ si $L$ es permitido para ser grande, para la misma exactitud $\epsilon$ el número de neuronas/parámetros, $N(\Phi), W(\Phi)$, puede ser considerablemente menor que si $L$ es pequeña. Permítanme enumerar una serie de resultados en esta dirección. Esta lista es, sin duda no es completa.
En todos estos documentos, algunas de las funciones son identificados que cuando se aproximaban con poca profundidad de las redes necesitan mucho más altos parámetros de $N(\Phi), W(\Phi)$ que cuando en el fondo de las redes se utilizan.
Ahora hay otras ventajas de la profundidad de las redes más superficial de las redes a partir de una aproximación punto de vista, como por ejemplo, que poco profundas redes no permiten algo que la gente llama localizada aproximación. Pero no quiero entrar en detalles sobre esto.
3. Convolucional redes
También quiero hacer un segundo punto. Usted pregunta "¿por Qué hacer un profundo redes funcionan tan bien?". Otra respuesta a esta pregunta es que no. Profundo de feed-forward redes no funcionan en absoluto. En prácticamente todas las aplicaciones del uso de la gente convolucional redes neuronales. Usted podría, por supuesto, tratar de enfocar este problema desde una aproximación a las perspectivas teóricas de nuevo. Sé de tres obras que explican el poder de la profundidad para CNNs:
- En la Potencia Expresiva de Aprendizaje Profundo: Un Análisis Tensorial
- Equivalencia de aproximación por convolucional redes neuronales y totalmente conectado redes
- Beneficios de profundidad en las redes neuronales:
Las dos primeras obras considerar muy específica CNN arquitecturas de manifiesto que en el fondo CNNs dan una mejor aproximación de las tasas de algunas de las funciones que poco profundas de las redes. (En el segundo artículo, este no es explícita, pero se dice que cada aproximación de la tasa de avance de las redes se traduce a un similar para convolucional redes y viceversa. Así que la mencionada resultados para feedforward redes de llevar encima.) El tercer resultado no restringir la arquitectura, pero sólo muestra que para algunas funciones muy específicas profundo convolucional redes son mejores approximators de poca profundidad.
Aquí mucho más trabajo necesita ser hecho especialmente en lo relativo a la comprensión del papel de la agrupación.
Hay otros aspectos de la profunda convolucional redes que pueden hacer ellos el trabajo así como, que introducen invariances que los hace buenos clasificadores. Ya que esta no es la aproximación teórica no voy a entrar en detalles aquí, pero quiero mencionar Mallat original de la obra: la Comprensión Profunda Convolucional Redes.
4. Comparisson a los polinomios y series de Fourier
También pidió una comparación con el polinomio de aproximación o aproximación de Fourier. La aproximación a los espacios de estas funciones las clases son bien conocidos, y que simplemente se puede comprobar que los tipos de funciones profundo redes dan una mejor aproximación de las tasas.
Un punto es que ambos polinomios y series de Fourier son terribles en la aproximación de funciones con discontinuidades. Por ejemplo, en una Óptima aproximación de seccionalmente suave funciones usando una profunda ReLU redes neuronales se ha demostrado que en el fondo de las redes aproximado por tramos de la n-veces derivable funciones esencialmente así como de n-veces derivable funciones. El segundo punto es, que en el fondo de las redes son muy eficientes en la representación de polinomios como la famosa frase que se muestra para ReLU redes en el Error de los límites para aproximaciones con profundo ReLU redes. Es evidente que si una de cada polinomio puede ser bien aproximada, entonces también sumas de polinomios se puede aproximar, por lo que la aproximación de las tasas de transferencia. Del mismo modo, la Aproximación de las propiedades de una de varias capas feedforward red neuronal artificial muestra que ciertas redes neuronales son al menos tan bueno como el polinomio de aproximación. Como para la aproximación de Fourier Profundo de la Red Neuronal Teoría de la Aproximación tiene algunos de los resultados de cómo reapproximate funciones sinusoidales.
Muchos otros trabajos muestran que DNNs son en efecto óptimo en la aproximación de determinados función de las clases en un marco determinado, por ejemplo, una Óptima Aproximación con Escasamente Conectado Profundo Redes Neuronales , sino también el Error de los límites para aproximaciones con profundo ReLU redes. En este caso, que se de curso al menos tan buena como la de polinomios o series de Fourier.
En esencia, en lo profundo de las redes se encuentran en casi todos aproximación tareas tan buena como la de polinomios/series de Fourier y en algunas tareas de la manera mejor.