15 votos

¿Cuál es el formalismo más general para el aprendizaje automático?

La mayor parte de la literatura que puedo encontrar en el campo del aprendizaje automático es extremadamente práctica, enumerando muchas técnicas que puede utilizar como redes neuronales, SVMs, bosques aleatorios, etc. Hay muchas sugerencias sobre implementaciones y qué enfoques son buenos para diferentes problemas. Mi pregunta es, ¿existe un único formalismo unificador o marco teórico en el que se pueda pensar sobre los problemas de inferir patrones y conclusiones de los datos?

En este marco me interesaría explorar este tipo de cuestiones:

¿Cuál es el número correcto de parámetros libres que hay que utilizar para un conjunto de datos determinado? ¿Cómo sabemos si nos hemos excedido en el ajuste? ¿Cómo expresamos el equilibrio entre la exactitud del ajuste de baja resolución y la precisión del ajuste de alta resolución?

¿Podemos definir una técnica de aprendizaje automático en términos generales (en lugar de específicos como neuronas o bosques o aprendizaje profundo o modelos gráficos o...)? ¿Cómo podemos comparar objetivamente estas técnicas? ¿Son algunas de ellas realmente idénticas?

¿Qué tipo de señales es posible extraer de los datos? ¿Qué tipos de ruido podrían impedir el aprendizaje exitoso?

5voto

user3658307 Puntos 33

Ni idea de por qué, pero las otras respuestas ignoran la rica y bien estudiada teoría en ML que se remonta a décadas atrás -investigación que aún continúa hoy en día. Como el ML ha explotado en términos de aplicaciones prácticas recientemente, hay mucha más gente consciente de los aspectos prácticos (¡descargar la biblioteca, preprocesar los datos, y hacer clic en ir! (), pero desgraciadamente ignoran los aspectos teóricos.

El único comentario (de hace 4 años) tiene la idea correcta. Teoría del aprendizaje probablemente correcto (PAC) es el método clásico para describir la teoría general del aprendizaje. Otro pilar fundamental de la teoría del aprendizaje es Minimización empírica del riesgo . Una referencia básica estándar es Comprender el aprendizaje automático: De la teoría a los algoritmos por Shalev-Shwartz y Ben-David. .

El comentario también menciona Teoría de Vapnik-Chervonenkis (VC) . La dimensión VC es un método para cuantificar la capacidad de un modelo (es decir, lo expresivo o complicado que puede llegar a ser, si es necesario). Existen otros métodos para medirla, como números de cobertura et Complejidades Rademacher . Básicamente, si quieres encuadernado el error de generalización (es decir, garantizar que no se está sobreajustando, dadas algunas suposiciones sobre la distribución de los datos [véase la teoría de la adaptación del dominio PAC]), entonces la complejidad de su modelo desempeña un papel en ello. Como es de esperar, un modelo más potente tenderá a aumentar la diferencia entre el error de entrenamiento y el de prueba (es decir, tener más sobreajuste) y, en ciertos casos, esta cantidad puede cuantificarse realmente utilizando medidas como la dimensión VC $\mathfrak{D}[H]$ de algún espacio de hipótesis $H$ .

A modo de ejemplo, dejemos que $T$ sea el conjunto de puntos de datos de entrenamiento de IID para la clasificación binaria, extraídos de una distribución $P$ con $|T| >> \mathfrak{D}[H]$ y que $0 < \delta < 1$ . Entonces $\forall\;h\in H$ tenemos que $$ P\left( R[h] \leq R_E[h] + 2\sqrt{\frac{{2}}{|T|}\left[ \mathfrak{D}[H]\left[\ln\left(\frac{2|T|}{\mathfrak{D}[H]}\right) + 1\right] - \ln\left(\frac{\delta}{4}\right) \right]}\; \right) \geq 1 - \delta $$ donde el riesgo empírico (error de formación o pérdida en la muestra) es $\mathcal{L}_E[h] = (1/|T|) \sum_{x,y \in T} L(y, h(x)) $ el error de generalización (pérdida fuera de la muestra, o error en el tiempo de prueba) es $ \mathcal{L}[h] = \iint_{X,Y} P(x,y) L(y, h(x))\, dx\,dy $ . Hay algunos otros supuestos; había un buen resumen aquí et wiki también lo menciona.

Otro ejemplo popular es la complejidad muestral del aprendizaje de una función binaria. Sea $H$ sea el espacio de las funciones binarias. Entonces es $(\epsilon,\delta)$ -aprendible con una muestra de tamaño $N$ del orden de $$ N = \mathcal{O}\left( \frac{\mathfrak{D}[H] - \ln\delta}{\epsilon} \right). $$ Esto nos indica cuántas muestras necesitamos para aprender una función determinada.

Sin embargo, diré que la teoría de la PAC tiende a ser difícil de aplicar en la práctica (por ejemplo, a los modelos de aprendizaje profundo y a los conjuntos de datos modernos). Sin embargo, veo alguna teoría útil e interesante en algunos casos, como los resultados relativos a la adaptación del dominio, que nos dicen lo cerca que tienen que estar dos conjuntos de datos para que, por ejemplo, el aprendizaje de transferencia funcione. Sin embargo, como marco matemático/teórico general y unificado para estudiar clases de funciones (hipótesis) y su capacidad para minimizar un concepto abstracto de riesgo/error, es lo mejor que conozco.


En cuanto a tus preguntas (que por cierto deberían ser cada una sus propias preguntas con toda honestidad):

Mi pregunta es: ¿existe un único formalismo o marco teórico unificador en el que se pueda pensar sobre los problemas de inferir patrones y conclusiones a partir de los datos?

Claro, el estándar que mencioné antes. Definir un espacio de funciones (clase de hipótesis) en el que buscar y una función de error/riesgo que minimizar, y luego utilizar la teoría de la PAC para, por ejemplo, definir las nociones de complejidad de la muestra (cuántos datos se necesitan para obtener $\epsilon$ nivel de precisión con probabilidad $1-\delta$ ?).

En ese marco me interesaría explorar este tipo de cuestiones: ¿Cuál es el número correcto de parámetros libres que hay que utilizar para un conjunto de datos determinado? ¿Cómo sabemos cuándo hemos sobreajustado? ¿Cómo expresamos el equilibrio entre la exactitud del ajuste de baja resolución y la precisión del ajuste de alta resolución?

Buena pregunta, pero son preguntas muy aplicadas/prácticas en realidad, y son difíciles de responder en general. Hoy en día solemos sobreajustar a propósito una "red profunda" y luego la regularizamos hasta que deja de sobreajustar. Sabemos cuándo nos ajustamos en exceso basándonos en las estimaciones del error de generalización.

Sin embargo, cuestiones como el sobreajuste están bien estudiadas en la teoría de la PAC (por ejemplo, el límite que di anteriormente lo expresa de forma bastante concisa como la distancia entre el error de entrenamiento y el de prueba, y lo limita para un caso particular). Preguntas como "el número correcto de parámetros libres" también se pueden responder: se puede relacionar el número de parámetros libres con medidas de complejidad y capacidad (como la dimensión VC), y deducir lo complejo que debería ser el modelo. Por supuesto, esto es muy difícil en la práctica.

Por otra parte, los enfoques de aprendizaje bayesiano nos ofrecen una forma muy diferente de detectar el exceso de ajuste a través de una navaja de Occam natural. Véase, por ejemplo La navaja de Occam de Rasmussen y Gharamani, 2001, para algunos ejemplos sencillos pero interesantes. Los enfoques bayesianos permiten una regularización natural en este sentido, y los métodos bayesianos no paramétricos (por ejemplo, los procesos gaussianos) son naturalmente inteligentes en el sentido de que aumentan su capacidad en función de la cantidad de datos disponibles . Sin embargo, la arbitrariedad de la elección de la prioridad causa algunas dificultades (aunque esto está bien estudiado, véase, por ejemplo, la tesis de Radford Neal sobre el aprendizaje bayesiano para las redes neuronales, que tiene una buena sección sobre las prioridades y sus implicaciones).

Por otra parte, la compensación entre sesgo y varianza es una instancia bastante simplista de otro conjunto de principios teóricos mucho más generales relativos a las compensaciones. Esto incluye el "Teorema de la no gratuidad", que muestra que no puede haber un "aprendiz universal" (para cada cosa/modelo de aprendizaje, hay una tarea en la que falla), y el compromiso entre sesgo y complejidad, que muestra que la minimización del riesgo (error generalizado) tiene un equilibrio: la elección de una clase de hipótesis potente ayuda a reducir el error de aproximación (causado por un modelo débil), pero aumenta el error de estimación (causado por el sobreajuste). Esta noción puede hacerse muy concreta y exacta (véase el libro que he enlazado para una introducción).

¿Podemos definir una técnica de aprendizaje automático en términos generales (en vez de específicos como neuronas o bosques o aprendizaje profundo o modelos gráficos o...)? ¿Cómo podemos comparar objetivamente estas técnicas? ¿Son algunas de ellas realmente idénticas?

Como se ha mencionado anteriormente, se puede ver el ML como una búsqueda a través de un espacio de funciones para encontrar un miembro (función/modelo) que minimice algún funcional llamado riesgo o pérdida. Esta es una formulación muy general.

Sí me parece interesante considerar la fusión de los modelos probabilísticos con el aprendizaje profundo, a través de métodos bayesianos. Por ejemplo, infinitamente Se sabe que las grandes redes neuronales son equivalentes a los procesos bayesianos no paramétricos. (por ejemplo [a] , [b] ).

¿Qué tipo de señales es posible extraer de los datos?

De nuevo, hay demasiadas formas de abordar esta cuestión.

Por ejemplo, en la modelización generativa, queremos aproximar la distribución marginal $p_\text{data}(x)$ . Muchos trabajos teóricos en GANs, VAEs, etc... discuten lo que los diferentes modelos son capaces de manejar. (Por ejemplo, la elección de la prioridad latente puede determinar qué topologías de datos pueden representarse bien).

La respuesta más clásica es preguntar qué funciones puede aprender. Esto se corresponde con la visión del aprendizaje automático como el estudio de la construcción de aproximadores de funciones. La mayoría de la gente está familiarizada con teoremas de aproximación universal , mostrando capacidades en, por ejemplo, funciones continuas. Este tipo de trabajo sigue siendo habitual: por ejemplo, los trabajos más recientes sobre capas neuronales teóricas de conjuntos muestran que ciertas capas son aproximadores universales sobre funciones invariantes de la permutación; otros trabajos recientes examinar los teoremas del aproximador universal sobre las señales definidas en gráficos (mediante redes convolucionales gráficas)

¿Qué tipo de ruido podría impedir el éxito del aprendizaje?

Depende de dónde esté el ruido. Suponiendo que quieras aprender un mapeo $f: X\rightarrow Y$ con un conjunto de datos $T=\{(x_i,y_i)\}_i$ si hay ruido intrínseco en los datos (es decir, en el $x$ et $y$ valores), entonces se crea una incertidumbre aleatoria. En el caso simple, esto se manifiesta como un término de error adicional en la descomposición sesgo-varianza (con el sesgo añadido si el ruido tiene una media distinta de cero, y la varianza depende de la dispersión del ruido). Véase, por ejemplo aquí . Hay otros Sin embargo, hay tipos de "ruido", como el desajuste de dominios entre los conjuntos de entrenamiento y de prueba, que gran parte de la investigación sobre adaptación de dominios se centra en combatir.


Relacionado con esto: [1] , [2] , [3] , [4] , [5]

1voto

user27886 Puntos 23

Estoy de acuerdo con el otro encuestado. El enfoque del aprendizaje automático está más orientado a los algoritmos listos para ser implementados. Sin embargo, hay algunos resultados simples como el Bias-Variance Tradeoff y otro tipo de discusiones sobre el rendimiento "limitante". Por lo que he visto, tu pregunta podría ser más práctica en el área de selección de modelos (es decir, cómo elegir uno de los algoritmos que has mencionado para resolver un problema). En algunos casos, no hay un algoritmo único que sea el mejor, sino que se utilizan ambos (o varios) algoritmos en un método de conjunto, por ejemplo, boosting, que aprovecha cuando los diferentes algoritmos de aprendizaje son mejores para clasificar diferentes tipos de ejemplos.

1voto

savinson Puntos 101

Uno de los formalismos generales para utilizar los métodos de conjunto para la clasificación fue desarrollado por este autor y sus seguidores https://en.m.wikipedia.org/wiki/Yuri_Zhuravlev y se llama teoría algebraica de los algoritmos, pero no he visto ningún libro o curso en inglés, puede ser algún paper, la mayoría de la información en ruso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X