19 votos

¿Son las redes neuronales estimadores consistentes?

En pocas palabras

¿Se ha estudiado la coherencia de alguno de los modelos "típicos" de aprendizaje profundo utilizados en la práctica, es decir, redes neuronales con múltiples capas ocultas, entrenadas con descenso de gradiente estocástico? En caso afirmativo, ¿cuáles han sido los resultados?

Parece haber cierta confusión sobre por qué menciono los procedimientos de optimización en relación con la coherencia. La consistencia es una propiedad de los estimadores, y aunque somos libres de elegir cualquier estimador, he optado por restringir la cuestión a los estimadores que podemos calcular realmente. De ahí la necesidad de especificar un algoritmo.

También me gustaría señalar que los teoremas universales de aproximación (UAT) normalmente sólo muestran que las redes neuronales como clase de función son lo suficientemente ricas como para modelar ciertos tipos de relaciones no lineales, y los que conozco no tratan de estimadores calculables. De ahí la motivación de mi pregunta: Las UAT, incluso las que tienen límites de error específicos, no ofrecen garantías sobre el rendimiento de las redes neuronales del mundo real.

Los detalles

Un estimador consistente converge en probabilidad a su valor verdadero si el tamaño de la muestra crece hasta el infinito. Podemos aplicar este concepto a modelos no paramétricos como las redes neuronales (de regresión):

Sea el DGP

$$ \mathbb{E}[y] = f(x) + \varepsilon $$

y suponemos que $f\in\mathcal{F}$ para alguna clase de función $\mathcal{F}$ .

Entrenamos la red neuronal con algún algoritmo $A_n:(X,Y)^n\rightarrow\mathcal{F'_n}$ tal que

$$ f_n = A_n((x_1,y_1),\dots,(x_n,y_n)) $$

es nuestra red entrenada para un conjunto de datos de tamaño $n$ .

Entonces una red neuronal sería coherente para $\mathcal{F}$ si

$$ \lim_{n\rightarrow\infty} \mathbb{P}[\|f_n-f\| >\delta] = 0 $$

para todos $\delta>0$ .

¿Existe alguna red neuronal que sea coherente en este sentido?

[Edición 3] ¿Qué tipo de red? ¿Qué $\mathcal{F}$ ? ¿Qué norma?

Decir que las "redes neuronales" son una clase amplia es quedarse corto: prácticamente cualquier modelo puede representarse como una red neuronal. Sin embargo, hay una serie de especificaciones que no tienen otras representaciones (todavía), a saber, la red neuronal "típica":

  • entrenado con una variación del descenso de gradiente estocástico
  • más de 1 capa oculta
  • función de activación de cresta: $x\mapsto u(a'x+b)$ para alguna función univariante $u$ (esto incluye ReLU y sus variaciones, sigmoide y sus variaciones) o función de activación pooling
  • densa/convolutiva/recurrente o una combinación de ellas

Cualquier de estas redes "típicas" está bien. Otra forma de ver la pregunta sería: "Si quiero elegir mi arquitectura de red de forma que mi red sea un estimador coherente, ¿cuál sería una elección válida?". .

Con respecto a $\mathcal{F}$ Tengo aún menos restricciones. No debe ser un espacio de dimensión finita (por ejemplo, polinomios con algún orden finito), eso sería hacer trampa. Más allá de eso, lo que sea necesario para obtener consistencia. Beppo Levi, $C^k$ Hilbert, Sobolev, elige tu favorito. El soporte compacto está bien, por supuesto, aunque no es necesario.

Por último, aunque soy consciente de que no todas las normas son equivalentes en espacios de dimensión infinita como $\mathcal{F}$ Estoy contento con la convergencia en probabilidad bajo cualquier norma. Después de todo, depende de $\mathcal{F}$ que las normas incluso tienen sentido.

Editar

Cuando digo que las redes neuronales son modelos no paramétricos, me refiero a que debemos dejar que el tamaño de la red dependa del tamaño del conjunto de datos. Si no lo hacemos así, es bastante obvio que las redes neuronales son incoherentes porque las redes de tamaño fijo tienen errores de aproximación irreducibles -ninguna red con activación ReLU o sigmoide puede representar $e^x$ exactamente, por ejemplo.

[Editar 2] ¿Por qué es esto relevante?

Las redes neuronales tienen fama de ser "muy buenas en tareas muy complejas". Me parece que esta reputación se debe a algunos logros destacados en clasificación de imágenes, procesamiento del lenguaje y (video)juegos. Sin lugar a dudas, las redes neuronales han sido capaces de destilar señales significativas de los espacios de entrada de muy alta dimensión que tienen estos problemas. Al mismo tiempo, se ha descubierto que las redes neuronales son increíblemente poco robustas, lo que se ha estudiado con el nombre de "ataques adversarios".

El tipo de no robustez que muestran las redes neuronales (es decir, sensibles a pequeño perturbaciones) es para mí un fuerte indicio de que las señales encontradas por las redes neuronales son, al menos en parte, espurias. No es ninguna exageración; con dimensiones de entrada de cientos de miles, incluso el ruido aleatorio no correlacionado contendrá probablemente una serie de fuertes correlaciones espurias (dependencia lineal), y la cantidad de dependencias no lineales razonablemente suaves será mucho mayor.

Aquí es donde entra en juego la coherencia. Si el entrenamiento de redes neuronales es consistente, al menos existe la esperanza de que en las condiciones adecuadas (dadas por la prueba de consistencia) las señales espurias desaparezcan. Si, por el contrario, el entrenamiento es incoherente, debemos buscar formas de adaptar el proceso de aprendizaje para hacerlo coherente.


Este es mi razonamiento: Sabemos que

$$ g_n = \arg\min_{f\in\mathcal{F}'_n}\sum_{i=1}^n{(y_i-f(x_i))}^2 $$

es coherente si $\mathcal{F}'_n$ se elige de forma muy precisa, por ejemplo según la prueba de aproximación universal en este documento .

El problema es que se sabe que las redes neuronales tienen múltiples mínimos locales en su función de pérdida y no tienen una estructura especial que podamos explotar, por lo tanto no existe un algoritmo que pueda encontrar con certeza el elusivo $g_n$ .

En particular, no es necesario que la discrepancia media entre los mínimos local y global converja a cero. Eso bastaría para no tener consistencia.

Esto no entra en conflicto con el teorema de aproximación universal porque ese teorema no se refiere a los algoritmos, sólo responde a la pregunta si $\lim_{n\rightarrow\infty}\mathcal{F'_n}$ es denso en $\mathcal{F}$ .


¿Me equivoco? ¿Hasta qué punto se conoce/estudia esto en la literatura sobre ML? Por ejemplo, el libro del aprendizaje profundo tiene toda una sección sobre la teoría de la consistencia, pero nunca la traslada al aprendizaje profundo.

2voto

chrishmorris Puntos 9

Hay que definir algunos detalles antes de responder a la pregunta.

Existen diferentes tipos de neuronas y conexiones de red, y es necesario especificarlas. También existen diferentes medidas para determinar en qué medida una función aprendida se aproxima a la función que se desea aprender.

El teorema de aproximación universal supone un soporte compacto, por lo que probablemente esto debería especificarse en la pregunta. Las redes neuronales no extrapolan. Por ejemplo, las RELU son asintóticamente lineales, por lo que una red RELU, por muy bien que aproxime la función objetivo dentro del soporte del conjunto de entrenamiento, sólo puede aprender una función que sea asintóticamente lineal.

También hay diferentes algoritmos de entrenamiento: la respuesta debe depender del que se elija.

0voto

Aleksejs Fomins Puntos 61

TL;DR SGD funciona muy bien en algunos problemas porque los problemas en los que funciona muy bien poseen una simetría, redundancia y suavidad significativas. Para estos problemas existe un algoritmo codicioso de propósito general que encuentra un mínimo global o casi global dados datos finitos y ruidosos y un número relativamente pequeño de iteraciones. Pero, por supuesto, los problemas de optimización generales no se pueden resolver con estrategias codiciosas.

Respuesta : Sospecho que para un requisito de consistencia útil en la práctica siempre se podrá encontrar un contraejemplo en el que falle la teoría.

  1. La complejidad real de la función puede ser infinita o, al menos, muy grande. En general, se podría tener un mapeo tabulado $x \rightarrow y$ donde $y$ son números aleatorios predefinidos.
  2. La SGD se basa en la idea de que las funciones "naturales" son, al menos hasta cierto punto, suaves. La SGD es completamente inútil cuando se trata de encontrar el mínimo de una función "no natural" como Función de Weierstrass o una gran clase de funciones caóticas. De nuevo, no hay pruebas, pero no es difícil imaginar una clase de problema en la que no exista ningún algoritmo general, salvo la búsqueda por fuerza bruta.

Los problemas de 1,2 podrían aliviarse restringiendo la suavidad de la función y exigiendo un dominio compacto, garantizando así que sólo haya un número finito de regiones de mínimos locales. Aunque esto no es cierto para todos los problemas de relevancia práctica, sí lo es para algunos, y simplifica el problema de forma significativa. Dada una restricción de suavidad, podemos garantizar que las regiones de mínimos locales están separadas al menos por una cierta distancia mínima, por lo que podríamos garantizar un mínimo global mediante GD + búsqueda en cuadrícula. Pero la búsqueda en cuadrícula es prácticamente inviable debido a la maldición de la dimensionalidad. SGD es, en cierta medida, similar a recocido simulado :

  • Teóricamente tiene la posibilidad de visitar todo el dominio compacto por azar, pero dependiendo de las condiciones iniciales y de la elección de los parámetros, las posibilidades de visitar la cuenca de atracción del mínimo global pueden ser arbitrariamente bajas.
  • Si no existe una buena previa para la condición inicial, puede ser necesario restablecer aleatoriamente la condición inicial después de un cierto número de iteraciones. Esto garantizaría que finalmente se visita la cuenca de atracción del mínimo global, pero no tiene por qué funcionar mejor que la búsqueda en cuadrícula.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X