Un trabajo reciente de La Pérdida de Superficies de Redes Multicapa ofrece algunas explicaciones posibles para esto. Desde sus abstracto (la negrita es mía):
"Se conjetura que tanto el recocido simulado y SGD convergen
a la banda de baja de puntos críticos, y que todos los puntos críticos que hay mínimos locales de alta calidad se mide por el error de la prueba.
Esto pone de relieve una de las principales diferencias entre grandes y pequeñas redes de tamaño donde el último, de baja calidad mínimos locales tienen probabilidad no nula de ser recuperado. Finalmente, se demuestra que la recuperación de el mínimo global se vuelve más difícil a medida que el tamaño de la red aumenta y que en la práctica es irrelevante como mínimo global a menudo conduce a un sobreajuste."
Muchas de las personas influyentes en el aprendizaje profundo (Yann LeCunn y Yoshua Bengio para nombrar unos pocos) y algunos investigadores que vienen más desde el ángulo matemático (Rong Ge y otros Sanjeev Arora colaboradores) se han de discutir y explorar estas ideas.
En la referencia anterior a la del papel, consulte la Figura 3, que muestra un banding/concentración fenómeno de los mínimos locales de los valores como las redes tienen más unidades ocultos. El banding/concentración representa cierta evidencia empírica de que para profundizar o modelos más grandes, los mínimos locales es "suficientemente buena", ya que su pérdida de valores son aproximadamente similares. Y lo que es más importante, tienen una pérdida de la que está más cerca del mínimo global como el modelo se vuelve más complejo (en este caso más amplio, pero en la práctica, más profundo).
Además, el uso de un spin-vidrio modelo, que incluso el estado es sólo un modelo y no necesariamente indicativo de la verdadera imagen, para mostrar que llegar al mundial minimizer de un mínimos locales pueden tomar de forma exponencial largo:
"Con el fin de encontrar un más bajas mínimo, debemos pasar a través de un punto de silla. Por lo tanto debemos ir hasta al menos el nivel donde hay una misma cantidad de puntos de silla de tener una oportunidad decente de encontrar un
ruta que posiblemente podría llevarnos a otro mínimo local. Este proceso toma un exponencialmente mucho tiempo por lo que en la práctica para encontrar el mínimo global no es factible."
El Rong Ge investigación se centra alrededor de romper a través de puntos de silla. Yoshua Bengio y sus colaboradores han realizado un muy audaz Punto de Silla de Hipótesis:
Aquí se argumenta, basándose en los resultados de la física estadística, al azar de la teoría de la matriz, la red neuronal de la teoría y la evidencia empírica, de que una mayor y más profunda dificultad se origina a partir de la proliferación de puntos de silla, no de mínimos locales, especialmente en altas dimensiones de los problemas de interés práctico. Tales puntos de silla están rodeados de altas error mesetas que puede retrasar dramáticamente el aprendizaje, y dar la ilusión de la impresión de la existencia de un mínimo local.
fuente aquí: Identificar y atacar el punto de silla problema de grandes dimensiones no convexa de optimización.
En cierta medida, estos dos enfoques no son exactamente el mismo (el Punto de Silla Hipótesis podría preguntarse qué es realmente un local de mínimos y lo que es meramente un mal condicionado punto de silla con una muy larga de la región de la meseta?). La idea detrás del Punto de Silla Hipótesis es que es posible el diseño de métodos de optimización para romper a través de puntos de silla, por ejemplo, Silla Libre de Newton de la Bengio artículo, potencialmente acelerar la convergencia y tal vez incluso alcanzar el óptimo global. La primera de múltiples capas de la Pérdida de Superficie artículo no está realmente preocupado por alcanzar el óptimo global y realmente cree que tiene algunos buenos sobreajuste propiedades. Curiosamente, en ambos artículos se utilizan las ideas de la física estadística y spin-modelos de cristal.
Pero ellos son una especie de relativa en que en ambos artículos se creen que el fin de alcanzar el mundial de minimizer, uno debe superar la optimización reto de puntos de silla. El primer artículo sólo cree que los mínimos locales son lo suficientemente buenos.
Es justo preguntarse si el impulso de métodos nuevos y otros algoritmos de optimización, que puede estimar algunos de 2º orden curvatura propiedades pueden escapar puntos de silla. Una famosa animación de Alec Radford aquí.
Para responder a su pregunta: "¿de dónde viene esta creencia viene de" yo personalmente creo que se trata de el hecho de que es posible utilizar diferentes semillas aleatorias para aprender diferentes pesos, pero las correspondientes redes similares a los resultados cuantitativos. Por ejemplo, si establece dos diferentes semillas aleatorias para Glorot peso de inicialización, es probable que aprender diferentes pesos, pero si se entrena utilizando similares métodos de optimización, las redes tienen un rendimiento similar. Uno folclore creencia es que la optimización de paisaje es similar a la de un cartón de huevo, otra buena entrada en el blog sobre esto aquí: No más mínimos locales? con el cartón del huevo analogía.
Edit: yo sólo quería ser claro que el cartón de huevo analogía no es verdadera, de lo contrario no habría necesidad de impulso o de otras más avanzadas técnicas de optimización. Pero es sabido que la DGS no se desempeñan tan bien como SGD+Impulso o más modernos algoritmos de optimización, tal vez debido a la existencia de puntos de silla.