7 votos

¿Hay algún documento que resuma los fundamentos matemáticos del aprendizaje profundo?

¿Hay algún papel en el que se resume el fundamento matemático de aprendizaje profundo?

Ahora, estoy estudiando acerca de la formación matemática de aprendizaje profundo. Sin embargo, por desgracia, no puedo saber en qué medida la teoría de la red neuronal está matemáticamente demostrado. Por lo tanto, quiero un poco de papel que revisar el histórico de corriente de la red neuronal teoría basada en la matemática de la fundación, especialmente en términos de algoritmos de aprendizaje (convergencia), y NN es la capacidad de generalización y el NN de la arquitectura (¿por qué profunda es bueno?) Si usted sabe, por favor hágamelo saber el nombre de la hoja de papel.

Para su referencia, permítanme escribir algunos artículos que he leído.

  • Cybenko, G. (1989). La aproximación por superposiciones de una función sigmoidal. Matemáticas de control, señales y sistemas, 2(4), 303-314.
  • Hornik, K., Stinchcombe, M., \& White, H. (1989). Redes multinivel siempre hacia adelante son universales approximators. Las redes neuronales, 2(5), 359-366.
  • Funahashi, K. I. (1989). En el aproximado de la realización de la continua asignaciones por redes neuronales. Las redes neuronales, 2(3), 183-192.
  • Leshno, M., Lin, V. Y., Pinkus, A., \& Schocken, S. (1993). Redes multinivel siempre hacia adelante con un nonpolynomial activación de la función se puede aproximar cualquier función. Las redes neuronales, 6(6), 861-867.
  • Mhaskar, H. N., \& Micchelli, C. A. (1992). La aproximación por la superposición de sigmoidal y funciones de base radial. Los avances en las matemáticas Aplicadas, 13(3), 350-373.
  • Delalleau, O., \& Bengio, Y. (2011). Superficial y profundo de suma-producto de las redes. En los Avances en el Procesamiento de Información Neuronal Sistemas (pp 666-674). Telgarsky, M. (2016). Beneficios de profundidad en las redes neuronales. arXiv preprint arXiv:1602.04485.
  • Barron, A. R. (1993). Universal aproximación de los límites para superposiciones de una función sigmoidal. IEEE transactions on Information theory, 39(3), 930-945.
  • Mhaskar, H. N. (1996). Redes neuronales para una óptima aproximación de suave y funciones analíticas. La computación neuronal, 8(1), 164-177.
  • Lee, H., Ge, R., Ma, T., Risteski, A., \ Y Arora, S. (2017). En la capacidad de las redes neuronales para expresar las distribuciones. arXiv preprint arXiv:1702.07028.
  • Bartlett, P. L., \& Maass, W. (2003). Vapnik-Chervonenkis dimensión de las redes neuronales. El manual de teoría del cerebro y las redes neuronales, 1188-1192.
  • Kawaguchi, K. (2016). Aprendizaje profundo sin pobres mínimos locales. En los Avances en el Procesamiento de Información Neuronal Sistemas (pp 586-594).
  • Kingma, D. P., \& Ba, J. (2014). Adam: Un método para la optimización estocástica. arXiv preprint arXiv:1412.6980.
  • Duchi, J., Hazan, E., \& Cantante, Y. (2011). Adaptación subgradiente métodos para el aprendizaje en línea y estocásticos de optimización. Diario de Aprendizaje de la Máquina de la Investigación, 12(Jul), 2121-2159.
  • Tieleman, T., \& Hinton, G. (2012). Conferencia de 6.5 RMSProp, COURSERA: redes Neuronales para el aprendizaje de máquina. La universidad de Toronto, en el Informe Técnico.
  • Zeiler, M. D. (2012). ADADELTA: un aprendizaje adaptativo método de la tasa. arXiv preprint arXiv:1212.5701.
  • Yun, C., Sra, S., \& Jadbabaie, A. (2017). Optimalidad Global de las condiciones para la profundidad de las redes neuronales. arXiv preprint arXiv:1707.02444.
  • Zeng, J., Lau, T. T. K., Lin, S., \& Yao, Y. (2018). Bloque de Coordinar Descenso de Aprendizaje Profundo: Unificado de Convergencia Garantías. arXiv preprint arXiv:1803.00225.
  • De Weinan, E. (2017). Una propuesta en la máquina de aprendizaje a través de los sistemas dinámicos. Comunicaciones en Matemáticas y Estadística, 5(1), 1-11. Li, P., Chen, L., Tai, C., \& Weinan, E. (2017). Principio del máximo basado en algoritmos de aprendizaje profundo. El Diario de Aprendizaje de la Máquina de la Investigación, 18(1), 5998-6026.
  • Zhang, C., Bengio, S., Hardt, M., Recht, B., \& Vinyals, O. (2016). La comprensión profunda de aprendizaje requiere el replanteamiento de la generalización. arXiv preprint arXiv:1611.03530.
  • Kawaguchi, K., Kaelbling, L. P., \& Bengio, Y. (2017). La generalización en el aprendizaje profundo. arXiv preprint arXiv:1710.05468.

7voto

Jan Kukacka Puntos 1027

A mi conocimiento, no hay un solo documento que resume demostrado los resultados matemáticos. Para una visión general, recomiendo ir por los libros de texto, que son más propensas a dar a usted un amplio fondo general. Dos ejemplos destacados son:

  • Obispo, Christopher M. de redes Neuronales para el reconocimiento de patrones. Oxford university press, 1995.
  • Goodfellow, Ian, Yoshua Bengio, Aarón Courville, y Yoshua Bengio. Aprendizaje profundo. Vol. 1. Cambridge: MIT press, 2016.

Estos son más bien libros de introducción, en comparación con el nivel de algunos artículos que se citan. Si quieres ir más profundo en el PAC de la teoría del aprendizaje (lo que realmente se debe, si usted planea en hacer la investigación sobre el learnability de NN modelos), leer estas dos:

  • Mehryar Mohri, Afshin Rostamizadeh, y Encontrar Talwalkar, Fundamentos de la Máquina de Aprendizaje, MIT Press, 2012 (pero espera para la edición de 2018, es debido en Navidad y tiene algunas de las considerables mejoras)
  • Shai Shalev-Shwartz , Shai Ben-David, la Comprensión de la Máquina de Aprendizaje: De la Teoría a los Algoritmos, Cambridge University Press, 2014

También, si usted está interesado en la secuencia histórica del desarrollo de las redes neuronales, leer:

  • Schmidhuber, J., 2015. Profundo de aprendizaje en redes neuronales: Una visión general. Las redes neuronales, 61, pp 85-117.

El truco con la teoría matemática y de las pruebas en el aprendizaje profundo es que muchos resultados importantes no tienen consecuencias prácticas. Por ejemplo, el super famoso Universal aproximación teorema dice que una red neuronal con una sola capa oculta puede aproximar cualquier función arbitraria de precisión. ¿Por qué te importa para el uso de varias capas, a continuación, si uno es suficiente? Porque era empíricamente demostrado que funciona. También, el Universal aproximación teorema sólo nos dice que esa red existe, pero no nos dice nada acerca de lo que realmente nos interesa, es decir,

  • el learnability de una red de formación de las muestras (una Teoría de la Información, problema, o de una PAC problema de aprendizaje, dependiendo de cómo lo lanzas).
  • la existencia de un algoritmo que puede aprender el correcto de la red (su peso) en el polinomio de tiempo (una teoría de la computación problema).

Por ejemplo, tenemos un universal teorema de aproximación por polinomios y universal aproximación teorema de Gauss para procesos con el cuadrado de la exponencial del núcleo. Pero ganamos ImageNet/Kaggle competiciones con polinomios o GPs? Por supuesto que no.

Otro ejemplo es el de la convergencia: la Formación de redes neuronales para el uso de los métodos de pedido (gradiente de la pendiente y la talla) está garantizada1 la convergencia a un mínimo local, pero nada más. Puesto que no es problema de optimización convexa, simplemente no podemos ser mucho más útil (aunque algunos se están realizando investigaciones acerca de los mínimos locales de la distancia de un mínimo global [1,2]). Naturalmente, se presta mucha más atención a la investigación empírica el estudio de lo que podemos hacer , incluso si no podemos demostrar que2.

Por último, no soy consciente de las obras demostrando muy importante acerca de la arquitectura de la red o sobre su capacidad de generalización (para ser honesto, no estoy seguro de qué tipo de pruebas se busca aquí; tal vez si la respuesta en los comentarios o añadir detalles a tu pregunta, puedo ampliar más sobre él aquí.)


[1]: Choromanska, A., Henaff, M., Mathieu, M., Arous, G. B. y LeCun, Y., 2015, febrero. La pérdida de superficies de redes multicapa. En la Inteligencia Artificial y Estadística (p 192-204).

[2]: Soudry, D. y Carmon, Y., 2016. No hay mal mínimos locales: los Datos de la formación independiente de error de garantías para las múltiples capas de las redes neuronales. arXiv preprint arXiv:1605.08361.

1 Garantizados casi seguramente; ver la discusión en torno a esta respuesta para algunos patológico contraejemplos.

2 Esto no es necesariamente malo y no significa que el aprendizaje profundo es la alquimia: Pruebas y riguroso de matemáticas de las teorías a menudo siguen a la evidencia empírica y la ingeniería de los resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X