Aviso: Esta publicación se basa en mis propias opiniones y experiencias con algoritmos de aprendizaje automático, que son ortogonales a las opiniones y experiencias de todos los demás.
Los modernos algoritmos de aprendizaje profundo no fueron diseñados para tener una bonita teoría matemática ni para ser particularmente interpretables o comprensibles. En cambio, fueron diseñados para funcionar bien mientras que el funcionamiento interno de la red neuronal es en su mayoría considerado una caja negra. El consumidor final de las tecnologías de inteligencia artificial generalmente no está familiarizado ni interesado en el funcionamiento interno de un sistema de IA, por lo que los desarrolladores de estos sistemas crean modelos de IA que se ven bien por fuera, pero es posible que los parámetros de estos modelos de IA ni siquiera estén públicamente disponibles. En la práctica, las redes neuronales tienden a ser una mezcolanza de técnicas (como capas convolucionales, regularización, normalización, varias funciones de activación, etc.) que funcionan experimentalmente bien para datos en un formato específico en lugar de tener una estructura unificada sobre la cual los matemáticos puedan demostrar teoremas. Creo que esto no es algo bueno, ya que necesitamos centrarnos más en la seguridad/interpretabilidad de la IA que simplemente en el rendimiento.
Criterios por los cuales el aprendizaje automático es matemático
Una función de fitness que tiene varios máximos únicos o pocos máximos locales debería considerarse como más matemática e interpretable que una función de fitness con muchos máximos locales (o al menos el óptimo local debería ser completamente descriptible usando pocos bits de información). Prefiero algoritmos de aprendizaje automático donde el proceso de entrenamiento sea más pseudodeterminista en el sentido de que el modelo de IA aprendido no dependa mucho de una inicialización aleatoria u otras fuentes de aleatoriedad producidas durante el entrenamiento. La pseudodeterminismo también debería ser robusto de varias maneras diferentes. Por ejemplo, la matriz Hessiana en el máximo local no debería tener autovalores que estén demasiado cerca de cero, y el proceso de entrenamiento de la función de fitness debería seguir siendo pseudodeterminista incluso si se generaliza. Si se cumplen estos requisitos de pseudodeterminismo, entonces el modelo entrenado debería ser interpretable y debería ser posible investigarlo matemáticamente.
La naturaleza de las redes neuronales
Considero que las redes neuronales con activación ReLU son objetos matemáticos en el sentido de que las funciones calculadas por estas redes neuronales son precisamente las raíces de funciones racionales tropicales, por lo que tal vez la conexión entre las redes neuronales con ReLU y la geometría tropical pueda explorarse más a fondo.
He realizado un experimento simple donde he entrenado dos veces una red neural bastante pequeña con la misma inicialización y he tomado algunas medidas para asegurar que las redes neuronales entrenadas terminarían en el mismo óptimo local. Pero incluso tomando estas medidas, las dos redes neuronales terminaron viéndose bastante diferentes entre sí. Para empeorar las cosas, después de entrenar una red neuronal, se pueden eliminar más del 90 por ciento de los pesos sin afectar el rendimiento de la red neuronal. Esto me convence de que las redes neuronales entrenadas aún tienen mucha información aleatoria en ellas y son difíciles de investigar desde una perspectiva puramente matemática. Las redes neuronales son bastante ruidosas y tal vez este ruido sea una razón para su falta de interpretabilidad.
Técnicas alternativas de aprendizaje automático matemático
Existen algunos algoritmos de aprendizaje automático que tienen una bonita teoría matemática detrás de ellos. Desafortunadamente, estos algoritmos de aprendizaje automático más matemáticos no han sido desarrollados hasta el punto en el que puedan competir con las redes neuronales, pero aún tienen un papel importante en el aprendizaje automático, y creo que las personas pueden desarrollar la teoría y la práctica de estos algoritmos de aprendizaje automático más matemáticos para que ayuden con tareas que hoy solo se pueden lograr utilizando redes neuronales profundas.
El algoritmo PageRank que se utiliza para Google y otros motores de búsqueda simplemente consiste en calcular el vector propio de Perron-Frobenius (el dominante) de la matriz de adyacencia de un gráfico dirigido. Los vectores propios de la matriz laplaciana de un gráfico se pueden usar para dividir los nodos del gráfico en grupos. Por lo tanto, consideraría la teoría espectral de grafos (junto con conceptos relacionados como los autovalores del laplaciano en alguna variedad riemanniana) como un área de matemáticas aplicable al aprendizaje automático.
Hacer que el aprendizaje automático sea más matemático usando funciones en un dominio complejo
Suponga que $D=\{z\in\mathbb{C}:|z|\leq 1\}$, y sea $f:D^n\rightarrow[-\infty,\infty)$ una función continua no constante que es plurisubarmónica en el interior de $D^n$. Sea $g:S_1^n\rightarrow[-\infty,\infty)$ la restricción de $f$ al toro $S_1^n$.
Sean $L_f$ y $L_g$ el conjunto de máximos locales de $f$ y $g$ respectivamente. Entonces $L_f\subseteq L_g$ y $\max f=\max g$ por el principio del máximo. Si $\mathbf{z}$ es un elemento típico en $L_g$, entonces hay aproximadamente una probabilidad de $0.5^n$ de que $\mathbf{z}$ también pertenezca a $L_f$, por lo que $|L_f|\approx(0.5)^n|L_g|$. Dado que $f$ tiene menos máximos locales que $g$, la función de fitness $f$ debería ser más fácil de investigar matemáticamente que la función $f$. Ahora, el principal problema es utilizar funciones de fitness como $f$ para resolver tareas de aprendizaje automático.
Desafortunadamente, no he visto mucha literatura intentando utilizar funciones de fitness plurisubarmónicas para el aprendizaje automático, y ciertamente hay dificultades con este tipo de enfoque, pero parece que los investigadores deberían gastar más recursos desarrollando más funciones de fitness de una variable compleja para desarrollar sistemas de IA más seguros e interpretables.