La respuesta a todas sus preguntas es no.
Pregunta 1
El aprendizaje supervisado suele formularse como un problema de optimización, pero no siempre es así. Además de los contraejemplos mencionados por Sycorax, existe todo un mundo de modelos bayesianos en los que el aprendizaje no implica necesariamente la optimización. En este caso, el objetivo es estimar una distribución de probabilidad sobre los parámetros o los resultados de las funciones, lo que implica integrar todas las posibilidades en lugar de optimizar.
Pregunta 2
Uno puede definir clases de equivalencia de métodos como quiera. Pero, yo diría que el conjunto de todos los métodos que optimizan una función objetivo no es una categorización muy útil, y descuida muchas diferencias importantes. Entre ellas...
Las redes neuronales son simplemente una clase de funciones. Pueden utilizarse para el aprendizaje supervisado, pero también para otros fines. En cambio, las SVM y los bosques aleatorios definen ambos una clase de funciones (es decir, un espacio de hipótesis) y un algoritmo de aprendizaje (que es un procedimiento que asigna conjuntos de datos a funciones en el espacio de hipótesis). Los algoritmos de aprendizaje SVM y random forest se formulan específicamente en un contexto de aprendizaje supervisado. Se pueden definir variantes de estos métodos que funcionen en otros contextos, pero no se puede llamar estrictamente a estas variantes "SVM" o "bosques aleatorios". Desde esta perspectiva, las redes neuronales no están en la misma categoría que las SVM y los bosques aleatorios.
En el contexto del aprendizaje supervisado, se ha observado ampliamente que las redes neuronales, los bosques aleatorios y las SVM tienen un rendimiento diferente en distintos conjuntos de datos. Esto se debe a que sesgos inductivos . Sin embargo, el sesgo inductivo también depende de muchas opciones específicas de cada método (por ejemplo, el preprocesamiento de datos, la arquitectura de la red, el algoritmo de aprendizaje, la elección del núcleo, el procedimiento de optimización de hiperparámetros, etc.).
Además, existen diferencias importantes en la aplicación práctica de estos métodos (por ejemplo, en lo que respecta al aprendizaje/optimización y a los requisitos computacionales).
Pregunta 3
Es cierto que las redes neuronales feedforward son aproximadores universales de funciones (véase aquí (pero tenga en cuenta que esto tiene un significado muy específico, y hay salvedades). También es cierto que las redes neuronales recurrentes son Turing completas (véase aquí ). En primer lugar, hay que tener en cuenta que estos resultados se aplican a clases generales de redes neuronales; una instanciación dada o una subclase particular pueden no tener estas propiedades. En segundo lugar, estos resultados no dicen nada sobre el aprendizaje a partir de datos. Y, en tercer lugar, tienen una utilidad limitada en un entorno aplicado, como mencionó Sycorax.
Conexión entre redes neuronales y bosques aleatorios
Varios trabajos han explorado las conexiones entre las redes neuronales y los bosques aleatorios o los árboles de decisión. Por ejemplo, véase Welbl (2014) . Los bosques aleatorios como redes neuronales artificiales (y sus beneficios) . Dado un bosque aleatorio entrenado, se puede construir explícitamente una red neuronal que implemente la misma función. No sé si existen trabajos que exploren lo contrario. Pero, uno podría hacer el siguiente argumento trivial: La clase de árboles de decisión de profundidad ilimitada puede representar cualquier función actuando efectivamente como una tabla de búsqueda infinita. La misma propiedad se extiende a los bosques aleatorios, ya que se componen de árboles de decisión. Por tanto, dada cualquier red neuronal, existe un bosque aleatorio que implementa la misma función. Por supuesto, esto no es especialmente interesante desde un punto de vista práctico.
Conexión entre redes neuronales y SVM
Existe una equivalencia bien conocida entre las máquinas kernel y las redes neuronales feedforward con una sola capa oculta (no lineal) y una salida lineal. El teorema de aproximación universal se aplica a esta clase de redes. Así que, suponiendo que podemos utilizar cualquier función kernel, y restringiéndonos a condiciones válidas para el UAT, una máquina kernel puede aproximar cualquier función que una red más profunda pueda. Pero, nótese que esto no implica que una red profunda y una máquina kernel produzcan la misma salida cuando se entrenan en un conjunto de datos finito.