57 votos

Un mapa claro de enfoques matemáticos para la Inteligencia Artificial

Recientemente me he interesado en Machine Learning y AI como estudiante de física teórica y matemáticas, y he revisado algunos de los recursos recomendados que tratan sobre la teoría del aprendizaje estadístico y el aprendizaje profundo en redes neuronales.

Uno de los principales problemas que encuentro en mi estudio personal de esta disciplina es que una abrumadora proporción de dichos recursos se centran en el lado práctico de ML, sacrificando rigor en favor de heurísticas útiles. Este enfoque tiene sus méritos obvios, considerando el gran interés actual en sus aplicaciones tanto en la ciencia como en la tecnología, pero me gustaría ir más allá de lo que el ingeniero promedio podría necesitar y explorar los aspectos más teóricos.

El elefante en la habitación es, por supuesto, el hecho de que hasta la fecha el funcionamiento interno de las principales herramientas de IA, las redes neuronales sobre todo, no se comprenden bien. Por lo que puedo ver, hay una variedad de enfoques que provienen de campos muy diversos, incluyendo una perspectiva física (ver Mecánica Estadística de Redes Neuronales de Huang, o Teoría de Campos Estadísticos para Redes Neuronales de Helias y Dahmen).

Como forastero, me resulta difícil navegar por la literatura, por lo que he pensado en hacer una pregunta bastante abierta en este sitio (no sé si este es el lugar correcto; estoy seguro de que la moderación me hará saber si no lo es). ¿Podría alguien trazar un mapa del panorama actual de la investigación en IA, desde la ciencia convencional hasta los enfoques de vanguardia, y elucidar los tipos de matemáticas necesarios para abordarlos?

7voto

Maggie H Puntos 6

Muchas de las cosas que la gente llama IA hoy son LLMs, por lo que sería bueno mirar las conferencias de Procesamiento del Lenguaje Natural como ACL, EMNLP (la conferencia de este año acaba de concluir ayer), y otras.

Hay algunos trabajos teóricos allí, por ejemplo este artículo reciente en EMNLP 2023: Desentrañando los Mecanismos de Extracción de Características en Redes Neuronales sobre el uso de Núcleos Neuronales Tangentes (NTK) para investigar el comportamiento de las redes neuronales obtuvo un premio al mejor artículo. Siguiendo las referencias de ese artículo puede llevarte a más trabajos teóricos, como verlo como un Proceso Gaussiano, Factorización de Matrices Implícitas, etc.

6voto

yolo Puntos 26

El libro reciente (2022) "Aspectos Matemáticos del Aprendizaje Profundo," editado por Philipp Grohs y Gitta Kutyniok, proporciona una visión general de los enfoques matemáticos contemporáneos para el análisis del aprendizaje profundo.

Aquí hay un extracto del primer capítulo:

Describimos el nuevo campo del análisis matemático del aprendizaje profundo. Este campo surgió en torno a una lista de preguntas de investigación que no fueron respondidas dentro del marco clásico de la teoría del aprendizaje. Estas preguntas se refieren a: la destacada capacidad de generalización de las redes neuronales sobreparametrizadas, el papel de la profundidad en las arquitecturas profundas, la aparente ausencia de la maldición de la dimensionalidad, un rendimiento de optimización sorprendentemente exitoso a pesar de la no convexidad del problema, entender qué características se aprenden, por qué las arquitecturas profundas funcionan excepcionalmente bien en problemas físicos, y qué aspectos finos de una arquitectura afectan el comportamiento de una tarea de aprendizaje de qué manera. Presentamos una visión general de los enfoques modernos que ofrecen respuestas parciales a estas preguntas. Para enfoques seleccionados, describimos las ideas principales con más detalle.

4voto

Novice Puntos 131

Como se mencionó, es probable que estés pidiendo demasiado, en lo que respecta al estado del arte.

Sin embargo, aquí tienes algunos comentarios y recursos:

Me gustaría ir más allá de lo que podría necesitar un ingeniero promedio y explorar los aspectos más teóricos.

Aquí tienes tres libros de texto relacionados con el aprendizaje automático teórico, de menos a más sofisticados matemáticamente:

Ninguno de estos aborda directamente el estado del arte, pero aún así pueden ser útiles.

Esta página web tiene algunos recursos sobre la teoría del aprendizaje por refuerzo (bajo Textbook and Related Courses):

Con respecto a:

el panorama actual de la investigación en IA, desde la ciencia convencional hasta los enfoques de vanguardia, ¿y elucidar los tipos de matemáticas necesarios para abordarlos?

El contenido de los recursos anteriores será de ayuda. Sin embargo, los "tipos de matemáticas necesarios para abordar" el estado del arte de un campo obviamente no es algo que se pueda responder con autoridad. En general, y pido disculpas si esta lista es ofensivamente elemental, he visto los siguientes sabores de matemáticas utilizados:

  • análisis real
  • teoría de la medida
  • teoría de la probabilidad, incluyendo la teórica de la medida
  • procesos estocásticos
  • quizás un poco de análisis funcional
  • álgebra lineal
  • algo de estadística
  • algunas técnicas de informática (análisis de algoritmos, etc.)
  • optimización

Por lo tanto, puedes pensar en la lista anterior de temas como áreas de matemáticas que se han utilizado, pero probablemente no como una lista exhaustiva de todo lo que podría ser útil.

Edit: Y aquí hay un artículo que debería haber mencionado: The Mathematics of Artificial Intelligence, por Gitta Kutyniok.

4voto

apg Puntos 1092

Aviso: Esta publicación se basa en mis propias opiniones y experiencias con algoritmos de aprendizaje automático, que son ortogonales a las opiniones y experiencias de todos los demás.

Los modernos algoritmos de aprendizaje profundo no fueron diseñados para tener una bonita teoría matemática ni para ser particularmente interpretables o comprensibles. En cambio, fueron diseñados para funcionar bien mientras que el funcionamiento interno de la red neuronal es en su mayoría considerado una caja negra. El consumidor final de las tecnologías de inteligencia artificial generalmente no está familiarizado ni interesado en el funcionamiento interno de un sistema de IA, por lo que los desarrolladores de estos sistemas crean modelos de IA que se ven bien por fuera, pero es posible que los parámetros de estos modelos de IA ni siquiera estén públicamente disponibles. En la práctica, las redes neuronales tienden a ser una mezcolanza de técnicas (como capas convolucionales, regularización, normalización, varias funciones de activación, etc.) que funcionan experimentalmente bien para datos en un formato específico en lugar de tener una estructura unificada sobre la cual los matemáticos puedan demostrar teoremas. Creo que esto no es algo bueno, ya que necesitamos centrarnos más en la seguridad/interpretabilidad de la IA que simplemente en el rendimiento.

Criterios por los cuales el aprendizaje automático es matemático

Una función de fitness que tiene varios máximos únicos o pocos máximos locales debería considerarse como más matemática e interpretable que una función de fitness con muchos máximos locales (o al menos el óptimo local debería ser completamente descriptible usando pocos bits de información). Prefiero algoritmos de aprendizaje automático donde el proceso de entrenamiento sea más pseudodeterminista en el sentido de que el modelo de IA aprendido no dependa mucho de una inicialización aleatoria u otras fuentes de aleatoriedad producidas durante el entrenamiento. La pseudodeterminismo también debería ser robusto de varias maneras diferentes. Por ejemplo, la matriz Hessiana en el máximo local no debería tener autovalores que estén demasiado cerca de cero, y el proceso de entrenamiento de la función de fitness debería seguir siendo pseudodeterminista incluso si se generaliza. Si se cumplen estos requisitos de pseudodeterminismo, entonces el modelo entrenado debería ser interpretable y debería ser posible investigarlo matemáticamente.

La naturaleza de las redes neuronales

Considero que las redes neuronales con activación ReLU son objetos matemáticos en el sentido de que las funciones calculadas por estas redes neuronales son precisamente las raíces de funciones racionales tropicales, por lo que tal vez la conexión entre las redes neuronales con ReLU y la geometría tropical pueda explorarse más a fondo.

He realizado un experimento simple donde he entrenado dos veces una red neural bastante pequeña con la misma inicialización y he tomado algunas medidas para asegurar que las redes neuronales entrenadas terminarían en el mismo óptimo local. Pero incluso tomando estas medidas, las dos redes neuronales terminaron viéndose bastante diferentes entre sí. Para empeorar las cosas, después de entrenar una red neuronal, se pueden eliminar más del 90 por ciento de los pesos sin afectar el rendimiento de la red neuronal. Esto me convence de que las redes neuronales entrenadas aún tienen mucha información aleatoria en ellas y son difíciles de investigar desde una perspectiva puramente matemática. Las redes neuronales son bastante ruidosas y tal vez este ruido sea una razón para su falta de interpretabilidad.

Técnicas alternativas de aprendizaje automático matemático

Existen algunos algoritmos de aprendizaje automático que tienen una bonita teoría matemática detrás de ellos. Desafortunadamente, estos algoritmos de aprendizaje automático más matemáticos no han sido desarrollados hasta el punto en el que puedan competir con las redes neuronales, pero aún tienen un papel importante en el aprendizaje automático, y creo que las personas pueden desarrollar la teoría y la práctica de estos algoritmos de aprendizaje automático más matemáticos para que ayuden con tareas que hoy solo se pueden lograr utilizando redes neuronales profundas.

El algoritmo PageRank que se utiliza para Google y otros motores de búsqueda simplemente consiste en calcular el vector propio de Perron-Frobenius (el dominante) de la matriz de adyacencia de un gráfico dirigido. Los vectores propios de la matriz laplaciana de un gráfico se pueden usar para dividir los nodos del gráfico en grupos. Por lo tanto, consideraría la teoría espectral de grafos (junto con conceptos relacionados como los autovalores del laplaciano en alguna variedad riemanniana) como un área de matemáticas aplicable al aprendizaje automático.

Hacer que el aprendizaje automático sea más matemático usando funciones en un dominio complejo

Suponga que $D=\{z\in\mathbb{C}:|z|\leq 1\}$, y sea $f:D^n\rightarrow[-\infty,\infty)$ una función continua no constante que es plurisubarmónica en el interior de $D^n$. Sea $g:S_1^n\rightarrow[-\infty,\infty)$ la restricción de $f$ al toro $S_1^n$.

Sean $L_f$ y $L_g$ el conjunto de máximos locales de $f$ y $g$ respectivamente. Entonces $L_f\subseteq L_g$ y $\max f=\max g$ por el principio del máximo. Si $\mathbf{z}$ es un elemento típico en $L_g$, entonces hay aproximadamente una probabilidad de $0.5^n$ de que $\mathbf{z}$ también pertenezca a $L_f$, por lo que $|L_f|\approx(0.5)^n|L_g|$. Dado que $f$ tiene menos máximos locales que $g$, la función de fitness $f$ debería ser más fácil de investigar matemáticamente que la función $f$. Ahora, el principal problema es utilizar funciones de fitness como $f$ para resolver tareas de aprendizaje automático.

Desafortunadamente, no he visto mucha literatura intentando utilizar funciones de fitness plurisubarmónicas para el aprendizaje automático, y ciertamente hay dificultades con este tipo de enfoque, pero parece que los investigadores deberían gastar más recursos desarrollando más funciones de fitness de una variable compleja para desarrollar sistemas de IA más seguros e interpretables.

3voto

David Park Puntos 139

A continuación se presentan tres libros sobre matemáticas del aprendizaje profundo que he encontrado. Especialmente, el autor del primero es un matemático puro. Por lo tanto, puedes esperar matemáticas de "alta calidad" en su libro.

  1. Arquitecturas de Aprendizaje Profundo: Un Enfoque Matemático por Ovidiu Calin.

Este libro describe cómo funcionan las redes neuronales desde el punto de vista matemático. Como resultado, las redes neuronales pueden ser interpretadas tanto como aproximadores universales de funciones como procesadores de información. El libro cierra la brecha entre las ideas y conceptos de las redes neuronales, que se utilizan en la actualidad a un nivel intuitivo, y el preciso lenguaje matemático moderno, presentando las mejores prácticas de lo primero y disfrutando de la solidez y elegancia de lo segundo.

Este libro puede ser utilizado en un curso de posgrado en aprendizaje profundo, siendo los primeros capítulos accesibles para estudiantes de último año de licenciatura. Además, el libro será de amplio interés para investigadores de aprendizaje automático interesados en una comprensión teórica del tema.

  1. Geometría del Aprendizaje Profundo: Una Perspectiva de Procesamiento de Señales por Jong Chul Ye.

El enfoque de este libro es proporcionar a los estudiantes ideas sobre geometría que pueden ayudarles a entender el aprendizaje profundo desde una perspectiva unificada. En lugar de describir el aprendizaje profundo como una técnica de implementación, como suele ser el caso en muchos libros existentes de aprendizaje profundo, aquí se explica el aprendizaje profundo como una forma última de técnicas de procesamiento de señales que se pueden imaginar.

Para respaldar esta afirmación, se presenta un resumen de los enfoques clásicos de aprendizaje de máquinas basados en núcleos, y se explican sus ventajas y limitaciones. Siguiendo una explicación detallada de los bloques de construcción básicos de las redes neuronales profundas desde un punto de vista biológico y algorítmico, se describen las últimas herramientas como atención, normalización, Transformador, BERT, GPT-3 y otros. Aquí, también, el enfoque se centra en el hecho de que en estos enfoques heurísticos, hay una importante y hermosa estructura geométrica detrás de la intuición que permite una comprensión sistemática. Se ofrece un análisis geométrico unificado para entender el mecanismo de funcionamiento del aprendizaje profundo desde la geometría de alta dimensión. Luego, se describen diferentes formas de modelos generativos como GAN, VAE, flujos normalizadores, transporte óptimo, entre otros, desde una perspectiva geométrica unificada, mostrando que en realidad provienen de problemas de minimización de distancias estadísticas.

Debido a que este libro contiene información actualizada tanto desde un punto de vista práctico como teórico, puede ser utilizado como libro de texto avanzado de aprendizaje profundo en universidades o como fuente de referencia para investigadores interesados en adquirir los últimos algoritmos de aprendizaje profundo y sus principios subyacentes. Además, el libro ha sido elaborado para un curso compartido de códigos para estudiantes de ingeniería y matemáticas, por lo que gran parte del contenido es interdisciplinario y atraerá a estudiantes de ambas disciplinas.

  1. Los Principios de la Teoría del Aprendizaje Profundo: Un Enfoque de Teoría Efectiva para Entender las Redes Neuronales por Daniel A. Roberts, Sho Yaida y Boris Hanin.

Este libro de texto establece un marco teórico para entender modelos de aprendizaje profundo de relevancia práctica. Con un enfoque que se inspira en la física teórica, Roberts y Yaida proporcionan explicaciones claras y pedagógicas de cómo funcionan realmente las redes neuronales profundas realistas. Para hacer accesibles los resultados de la vanguardia teórica, los autores evitan el énfasis tradicional del tema en la formalidad intimidante sin sacrificar la precisión. Directo y accesible, este volumen equilibra derivaciones detalladas de primeros principios de resultados novedosos con perspicacia e intuición tanto para teóricos como para practicantes. Este libro autocontenido es ideal para estudiantes e investigadores interesados en la inteligencia artificial con requisitos mínimos de álgebra lineal, cálculo y teoría de probabilidad informal. Puede llenar fácilmente un curso semestral sobre teoría del aprendizaje profundo. Por primera vez, los emocionantes avances prácticos en las capacidades modernas de inteligencia artificial pueden ser comparados con un conjunto de principios efectivos, proporcionando un esquema atemporal para la investigación teórica en aprendizaje profundo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X