1 votos

¿Existe una diferencia fundamental entre las redes neuronales artificiales y "otros" modelos de aprendizaje automático supervisado?

Me gustaría enlazar tres de estos recursos, presentar mi comprensión de lo que he leído y plantear la pregunta de si mi comprensión es aproximadamente correcta

¿Es el aprendizaje automático un ajuste de curvas glorificado?

¿Diferencia entre aprendizaje automático supervisado y diseño de experimentos?

¿Qué utilidad tiene la completitud de Turing? ¿Son las redes neuronales completas de Turing?

Leyendo los recursos enlazados y asumiendo que las respuestas y comentarios son correctos, deduzco que (me cito a mí mismo, incluyendo la mala ortografía: este post está muy editado, el contenido inicial está en el historial)

Desde cierto punto de vista muy abstracto, un problema de aprendizaje automático supervisado es un problema de optimización. Se intenta maximizar alguna "medida de bondad" o minimizar alguna medida de "maldad". La forma de formular el problema define, en cierto modo, el "modelo de aprendizaje automático". Puede haber diferentes formas de resolver el problema de optimización ("entrenar el modelo").

es no se equivoca . [A]

Pregunta 1: ¿Es [A] correcto?

Si [A] es correcto, entonces en ese sentido, por ejemplo, una CNN (o ANN en general) no es diferente de una SVM o un Random Forest. [B]

Pregunta 2: ¿Es [B] una conclusión razonable?

Sin embargo, existen pruebas de que

1) Los FFN son aproximadores universales

2) Las RNN son Turing completas

He leído (por desgracia, ya no puedo encontrar el recurso) que es posible aproximar Random Forest (y yo asumiría SVMs, ...) con cierto tipo de ANNs, pero no al revés.

En este sentido, el concepto de RNA es más general que SVMs o Random Forests (estoy luchando mucho con el lenguaje aquí...) [C]

Pregunta 3: ¿Es [C] correcta?

1voto

user777 Puntos 10934

Pregunta 1

Este es un buen resumen de cómo funcionan las actualizaciones iterativas de gradiente, pero esta definición deja fuera algunas clases de modelos, por lo que dudo que sea exhaustiva.

Por ejemplo, $k$ -El clasificador NNN no minimiza una pérdida. Ni siquiera "aprende" nada: en el momento en que desea clasificar alguna nueva observación, realiza una búsqueda de vecinos más cercanos. A diferencia de la regresión logística o las redes neuronales, no hay ninguna ecuación que evaluar. A diferencia de un árbol de decisión, no hay árbol. Todo lo que $k$ -NN lo que hace es medir distancias. Cada vez que realizas una consulta, empieza a medir distancias de nuevo. En este sentido, un $k$ -NN no generalizar cualquier cosa sobre el conjunto de entrenamiento a alguna otra abstracción (un árbol, una fórmula). Además, no hay procedimiento de entrenamiento, por lo que no hay nada sobre la $k$ -El clasificador NN se actualiza iterativamente.

En otro ejemplo, el bosque aleatorio procede haciendo siempre divisiones codiciosas. Si bien es cierto que cada una de estas divisiones es una optimización (maximizar la ganancia de información), la pérdida total del modelo nunca se evalúa durante el entrenamiento, ni se actualizan los árboles anteriores. Así que, en ese sentido, no se está corrigiendo a sí mismo, aunque algunos de sus árboles suelan hacer predicciones erróneas. De lo que se trata es de que, de media, el conjunto obtenga buenos resultados.

Pregunta 2

No estoy de acuerdo con su definición. Además, creo que podemos hacer algunas distinciones significativas entre las actualizaciones iterativas de gradiente de las SVM y las redes neuronales. Las SVM se diseñaron expresamente para ser problemas de optimización fuertemente convexos, mientras que las redes neuronales son problemas de optimización no convexos. Así que aunque ambos están utilizando actualizaciones iterativas gradiente para mejorar la aptitud del modelo, podemos tener mucha más confianza en que un SVM entrenado es óptimo (al menos wrt datos de entrenamiento), porque un problema fuertemente convexa tiene un mínimo único.

Pregunta 3

UAT es un teorema interesante, pero en contextos aplicados, los profesionales tienden a obsesionarse con la palabra "universal" y descuidan el concepto de "universal". hipótesis que son necesarios para que se aplique la UAT. En la práctica, cabe preguntarse

  • ¿El problema concreto en el que estoy trabajando cumple los requisitos de UAT? ¿La función es continua? ¿Sólo nos interesa un subconjunto compacto de los reales?
  • ¿Es posible encontrar los pesos de red ideales en un tiempo razonable?
  • ¿Disponemos de datos suficientes para aprender la red ideal (número suficiente de neuronas)?
  • UAT asume que podemos tolerar $\epsilon$ cantidad de error. ¿Es posible entrenar el modelo para lograr un error suficientemente pequeño dado el fijo cantidad de datos que tenemos?
  • Dicho de otro modo, ¿se ajusta nuestro modelo a los datos en exceso o en defecto?

En entornos aplicados, se pueden aplicar sentimientos similares a la completitud de Turing de una red concreta.

Si no se conoce la función subyacente que se desea aproximar, será difícil responder a estas preguntas.

Las redes neuronales son muy generales y flexibles, pero esa generalidad y flexibilidad tienen un coste. Afinar y entrenar una red neuronal es muy caro, y puede costar mucho trabajo encontrar una red que supere a un modelo más simple. En la mayoría de los problemas tabulares (problemas en los que los datos son una única matriz en la que las filas son observaciones y las columnas son valores de características), un bosque aleatorio es un modelo "por defecto" extremadamente potente que será difícil de superar sin invertir mucho tiempo en I+D.

Además, hay muchas formas de aproximar funciones suaves en un intervalo compacto que son mucho más sencillas que una red neuronal multicapa. Por ejemplo, la regresión spline es una herramienta muy flexible que no es mucho más complicada que una regresión lineal. El teorema de Stone-Weierstrass proporciona un resultado similar al de la UAT en el caso de la regresión polinómica (gracias, @Sean507).

Estas observaciones no pretenden ser una crítica a los teóricos que demuestran que algunos modelos tienen estas sofisticadas propiedades, pero si uno está interesado principalmente en aplicaciones y no en la teoría, entonces la fijación en la generalidad o la demostrabilidad puede distraer la atención de preocupaciones más acuciantes, tales como plazos y satisfacción del cliente .

0voto

throwaway Puntos 18

La respuesta a todas sus preguntas es no.

Pregunta 1

El aprendizaje supervisado suele formularse como un problema de optimización, pero no siempre es así. Además de los contraejemplos mencionados por Sycorax, existe todo un mundo de modelos bayesianos en los que el aprendizaje no implica necesariamente la optimización. En este caso, el objetivo es estimar una distribución de probabilidad sobre los parámetros o los resultados de las funciones, lo que implica integrar todas las posibilidades en lugar de optimizar.

Pregunta 2

Uno puede definir clases de equivalencia de métodos como quiera. Pero, yo diría que el conjunto de todos los métodos que optimizan una función objetivo no es una categorización muy útil, y descuida muchas diferencias importantes. Entre ellas...

Las redes neuronales son simplemente una clase de funciones. Pueden utilizarse para el aprendizaje supervisado, pero también para otros fines. En cambio, las SVM y los bosques aleatorios definen ambos una clase de funciones (es decir, un espacio de hipótesis) y un algoritmo de aprendizaje (que es un procedimiento que asigna conjuntos de datos a funciones en el espacio de hipótesis). Los algoritmos de aprendizaje SVM y random forest se formulan específicamente en un contexto de aprendizaje supervisado. Se pueden definir variantes de estos métodos que funcionen en otros contextos, pero no se puede llamar estrictamente a estas variantes "SVM" o "bosques aleatorios". Desde esta perspectiva, las redes neuronales no están en la misma categoría que las SVM y los bosques aleatorios.

En el contexto del aprendizaje supervisado, se ha observado ampliamente que las redes neuronales, los bosques aleatorios y las SVM tienen un rendimiento diferente en distintos conjuntos de datos. Esto se debe a que sesgos inductivos . Sin embargo, el sesgo inductivo también depende de muchas opciones específicas de cada método (por ejemplo, el preprocesamiento de datos, la arquitectura de la red, el algoritmo de aprendizaje, la elección del núcleo, el procedimiento de optimización de hiperparámetros, etc.).

Además, existen diferencias importantes en la aplicación práctica de estos métodos (por ejemplo, en lo que respecta al aprendizaje/optimización y a los requisitos computacionales).

Pregunta 3

Es cierto que las redes neuronales feedforward son aproximadores universales de funciones (véase aquí (pero tenga en cuenta que esto tiene un significado muy específico, y hay salvedades). También es cierto que las redes neuronales recurrentes son Turing completas (véase aquí ). En primer lugar, hay que tener en cuenta que estos resultados se aplican a clases generales de redes neuronales; una instanciación dada o una subclase particular pueden no tener estas propiedades. En segundo lugar, estos resultados no dicen nada sobre el aprendizaje a partir de datos. Y, en tercer lugar, tienen una utilidad limitada en un entorno aplicado, como mencionó Sycorax.

Conexión entre redes neuronales y bosques aleatorios

Varios trabajos han explorado las conexiones entre las redes neuronales y los bosques aleatorios o los árboles de decisión. Por ejemplo, véase Welbl (2014) . Los bosques aleatorios como redes neuronales artificiales (y sus beneficios) . Dado un bosque aleatorio entrenado, se puede construir explícitamente una red neuronal que implemente la misma función. No sé si existen trabajos que exploren lo contrario. Pero, uno podría hacer el siguiente argumento trivial: La clase de árboles de decisión de profundidad ilimitada puede representar cualquier función actuando efectivamente como una tabla de búsqueda infinita. La misma propiedad se extiende a los bosques aleatorios, ya que se componen de árboles de decisión. Por tanto, dada cualquier red neuronal, existe un bosque aleatorio que implementa la misma función. Por supuesto, esto no es especialmente interesante desde un punto de vista práctico.

Conexión entre redes neuronales y SVM

Existe una equivalencia bien conocida entre las máquinas kernel y las redes neuronales feedforward con una sola capa oculta (no lineal) y una salida lineal. El teorema de aproximación universal se aplica a esta clase de redes. Así que, suponiendo que podemos utilizar cualquier función kernel, y restringiéndonos a condiciones válidas para el UAT, una máquina kernel puede aproximar cualquier función que una red más profunda pueda. Pero, nótese que esto no implica que una red profunda y una máquina kernel produzcan la misma salida cuando se entrenan en un conjunto de datos finito.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X