En pocas palabras
¿Se ha estudiado la coherencia de alguno de los modelos "típicos" de aprendizaje profundo utilizados en la práctica, es decir, redes neuronales con múltiples capas ocultas, entrenadas con descenso de gradiente estocástico? En caso afirmativo, ¿cuáles han sido los resultados?
Parece haber cierta confusión sobre por qué menciono los procedimientos de optimización en relación con la coherencia. La consistencia es una propiedad de los estimadores, y aunque somos libres de elegir cualquier estimador, he optado por restringir la cuestión a los estimadores que podemos calcular realmente. De ahí la necesidad de especificar un algoritmo.
También me gustaría señalar que los teoremas universales de aproximación (UAT) normalmente sólo muestran que las redes neuronales como clase de función son lo suficientemente ricas como para modelar ciertos tipos de relaciones no lineales, y los que conozco no tratan de estimadores calculables. De ahí la motivación de mi pregunta: Las UAT, incluso las que tienen límites de error específicos, no ofrecen garantías sobre el rendimiento de las redes neuronales del mundo real.
Los detalles
Un estimador consistente converge en probabilidad a su valor verdadero si el tamaño de la muestra crece hasta el infinito. Podemos aplicar este concepto a modelos no paramétricos como las redes neuronales (de regresión):
Sea el DGP
$$ \mathbb{E}[y] = f(x) + \varepsilon $$
y suponemos que $f\in\mathcal{F}$ para alguna clase de función $\mathcal{F}$ .
Entrenamos la red neuronal con algún algoritmo $A_n:(X,Y)^n\rightarrow\mathcal{F'_n}$ tal que
$$ f_n = A_n((x_1,y_1),\dots,(x_n,y_n)) $$
es nuestra red entrenada para un conjunto de datos de tamaño $n$ .
Entonces una red neuronal sería coherente para $\mathcal{F}$ si
$$ \lim_{n\rightarrow\infty} \mathbb{P}[\|f_n-f\| >\delta] = 0 $$
para todos $\delta>0$ .
¿Existe alguna red neuronal que sea coherente en este sentido?
[Edición 3] ¿Qué tipo de red? ¿Qué $\mathcal{F}$ ? ¿Qué norma?
Decir que las "redes neuronales" son una clase amplia es quedarse corto: prácticamente cualquier modelo puede representarse como una red neuronal. Sin embargo, hay una serie de especificaciones que no tienen otras representaciones (todavía), a saber, la red neuronal "típica":
- entrenado con una variación del descenso de gradiente estocástico
- más de 1 capa oculta
- función de activación de cresta: $x\mapsto u(a'x+b)$ para alguna función univariante $u$ (esto incluye ReLU y sus variaciones, sigmoide y sus variaciones) o función de activación pooling
- densa/convolutiva/recurrente o una combinación de ellas
Cualquier de estas redes "típicas" está bien. Otra forma de ver la pregunta sería: "Si quiero elegir mi arquitectura de red de forma que mi red sea un estimador coherente, ¿cuál sería una elección válida?". .
Con respecto a $\mathcal{F}$ Tengo aún menos restricciones. No debe ser un espacio de dimensión finita (por ejemplo, polinomios con algún orden finito), eso sería hacer trampa. Más allá de eso, lo que sea necesario para obtener consistencia. Beppo Levi, $C^k$ Hilbert, Sobolev, elige tu favorito. El soporte compacto está bien, por supuesto, aunque no es necesario.
Por último, aunque soy consciente de que no todas las normas son equivalentes en espacios de dimensión infinita como $\mathcal{F}$ Estoy contento con la convergencia en probabilidad bajo cualquier norma. Después de todo, depende de $\mathcal{F}$ que las normas incluso tienen sentido.
Editar
Cuando digo que las redes neuronales son modelos no paramétricos, me refiero a que debemos dejar que el tamaño de la red dependa del tamaño del conjunto de datos. Si no lo hacemos así, es bastante obvio que las redes neuronales son incoherentes porque las redes de tamaño fijo tienen errores de aproximación irreducibles -ninguna red con activación ReLU o sigmoide puede representar $e^x$ exactamente, por ejemplo.
[Editar 2] ¿Por qué es esto relevante?
Las redes neuronales tienen fama de ser "muy buenas en tareas muy complejas". Me parece que esta reputación se debe a algunos logros destacados en clasificación de imágenes, procesamiento del lenguaje y (video)juegos. Sin lugar a dudas, las redes neuronales han sido capaces de destilar señales significativas de los espacios de entrada de muy alta dimensión que tienen estos problemas. Al mismo tiempo, se ha descubierto que las redes neuronales son increíblemente poco robustas, lo que se ha estudiado con el nombre de "ataques adversarios".
El tipo de no robustez que muestran las redes neuronales (es decir, sensibles a pequeño perturbaciones) es para mí un fuerte indicio de que las señales encontradas por las redes neuronales son, al menos en parte, espurias. No es ninguna exageración; con dimensiones de entrada de cientos de miles, incluso el ruido aleatorio no correlacionado contendrá probablemente una serie de fuertes correlaciones espurias (dependencia lineal), y la cantidad de dependencias no lineales razonablemente suaves será mucho mayor.
Aquí es donde entra en juego la coherencia. Si el entrenamiento de redes neuronales es consistente, al menos existe la esperanza de que en las condiciones adecuadas (dadas por la prueba de consistencia) las señales espurias desaparezcan. Si, por el contrario, el entrenamiento es incoherente, debemos buscar formas de adaptar el proceso de aprendizaje para hacerlo coherente.
Este es mi razonamiento: Sabemos que
$$ g_n = \arg\min_{f\in\mathcal{F}'_n}\sum_{i=1}^n{(y_i-f(x_i))}^2 $$
es coherente si $\mathcal{F}'_n$ se elige de forma muy precisa, por ejemplo según la prueba de aproximación universal en este documento .
El problema es que se sabe que las redes neuronales tienen múltiples mínimos locales en su función de pérdida y no tienen una estructura especial que podamos explotar, por lo tanto no existe un algoritmo que pueda encontrar con certeza el elusivo $g_n$ .
En particular, no es necesario que la discrepancia media entre los mínimos local y global converja a cero. Eso bastaría para no tener consistencia.
Esto no entra en conflicto con el teorema de aproximación universal porque ese teorema no se refiere a los algoritmos, sólo responde a la pregunta si $\lim_{n\rightarrow\infty}\mathcal{F'_n}$ es denso en $\mathcal{F}$ .
¿Me equivoco? ¿Hasta qué punto se conoce/estudia esto en la literatura sobre ML? Por ejemplo, el libro del aprendizaje profundo tiene toda una sección sobre la teoría de la consistencia, pero nunca la traslada al aprendizaje profundo.