57 votos

Un mapa claro de enfoques matemáticos para la Inteligencia Artificial

Recientemente me he interesado en Machine Learning y AI como estudiante de física teórica y matemáticas, y he revisado algunos de los recursos recomendados que tratan sobre la teoría del aprendizaje estadístico y el aprendizaje profundo en redes neuronales.

Uno de los principales problemas que encuentro en mi estudio personal de esta disciplina es que una abrumadora proporción de dichos recursos se centran en el lado práctico de ML, sacrificando rigor en favor de heurísticas útiles. Este enfoque tiene sus méritos obvios, considerando el gran interés actual en sus aplicaciones tanto en la ciencia como en la tecnología, pero me gustaría ir más allá de lo que el ingeniero promedio podría necesitar y explorar los aspectos más teóricos.

El elefante en la habitación es, por supuesto, el hecho de que hasta la fecha el funcionamiento interno de las principales herramientas de IA, las redes neuronales sobre todo, no se comprenden bien. Por lo que puedo ver, hay una variedad de enfoques que provienen de campos muy diversos, incluyendo una perspectiva física (ver Mecánica Estadística de Redes Neuronales de Huang, o Teoría de Campos Estadísticos para Redes Neuronales de Helias y Dahmen).

Como forastero, me resulta difícil navegar por la literatura, por lo que he pensado en hacer una pregunta bastante abierta en este sitio (no sé si este es el lugar correcto; estoy seguro de que la moderación me hará saber si no lo es). ¿Podría alguien trazar un mapa del panorama actual de la investigación en IA, desde la ciencia convencional hasta los enfoques de vanguardia, y elucidar los tipos de matemáticas necesarios para abordarlos?

25voto

Barrett Conrad Puntos 1705

Recomiendo encarecidamente el plan de estudios para el curso de Harvard de Boaz Barak sobre Fundamentos del Aprendizaje Profundo. Equilibra un punto de vista matemático con un respeto por los aspectos empíricos en constante evolución del campo.

17voto

lunos Puntos 21

En un nivel más introductorio que la respuesta de Martin M. W., disfruté Notas sobre Aprendizaje Automático Contemporáneo para Físicos de Jared Kaplan. En particular, es un texto independiente (aunque sin ejercicios) y podría ser más fácil de seguir que diapositivas de cursos sin las conferencias acompañantes. Está escrito en un estilo de "física teórica", centrándose en la intuición de los conceptos matemáticos subyacentes al aprendizaje automático.

13voto

Peter Delaney Puntos 1665

Un enfoque matemático interesante para las redes neuronales es obtener teoremas de aproximación, como se menciona en https://en.wikipedia.org/wiki/Universal_approximation_theorem

Los teoremas de aproximación universal implican que las redes neuronales pueden representar una amplia variedad de funciones interesantes con los pesos apropiados.

Sea $C(X, \mathbb{R}^m)$ el conjunto de funciones continuas de un subconjunto $X$ de un espacio euclidiano $\mathbb{R}^n$ a un espacio euclidiano $\mathbb{R}^m$. Sea $\sigma \in C(\mathbb{R}, \mathbb{R})$. Note que $(\sigma \circ x)_i = \sigma(x_i)$, entonces $\sigma \circ x$ denota $\sigma$ aplicada a cada componente de $x$. Entonces, $\sigma$ no es polinómica si y solo si para cada $n \in \mathbb{N}$, $m \in \mathbb{N}$, subespacio compacto $K \subseteq \mathbb{R}^n$, $f \in C(K, \mathbb{R}^m), \varepsilon > 0$ existen $k \in \mathbb{N}$, $A \in \mathbb{R}^{k \times n}$, $b \in \mathbb{R}^k$, $C \in \mathbb{R}^{m \times k}$ tales que $$\sup_{x \in K} \| f(x) - g(x) \| < \varepsilon$$ donde $g(x) = C \cdot ( \sigma \circ (A \cdot x + b) )$.

Un trabajo importante es "Error bounds for approximations with deep ReLU networks"

Vamos a considerar el error $L^\infty$ de la aproximación de funciones pertenecientes a los espacios de Sobolev $W_n^{\infty}([0, 1]^d )$ (sin suposiciones de estructura jerárquica).

Un artículo con muchas referencias es WHY DEEP NEURAL NETWORKS FOR FUNCTION APPROXIMATION?.

9voto

Marth Puntos 6

Aquí hay algunos recursos relevantes:

8voto

Richard Puntos 607

Te podría interesar el trabajo de Greg Yang (por ejemplo, https://arxiv.org/abs/2203.03466), el cual está muy inspirado en la física. Esta teoría realmente ha llevado a un método de transferencia de hiperparámetros sin necesidad de ajustes que parece haber sido utilizado en la generación más reciente de LLMs. (Digo "parece", ya que los laboratorios no son muy abiertos con los detalles).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X