El aprendizaje profundo es un tema cada vez más candente hoy en día.
¿Cuáles son los supuestos principales que hacen que el aprendizaje profundo carezca de algunos conjuntos de datos? Ej: ¿Funciona bien en conjuntos de datos ruidosos?
El aprendizaje profundo es un tema cada vez más candente hoy en día.
¿Cuáles son los supuestos principales que hacen que el aprendizaje profundo carezca de algunos conjuntos de datos? Ej: ¿Funciona bien en conjuntos de datos ruidosos?
Un general puede pensar en dos tipos de resultados de dureza en la máquina de aprendizaje: teórico de la Información de la dureza en el contexto de aprendizaje estadístico (es decir, dando una cota inferior para el número mínimo de ejemplos necesarios para aprender) y algorítmica dureza (he.e, una mala algorítmica elección significa que la optimización se hace imposible).
En el contexto de aprendizaje profundo, hablando de la dureza es complicado, ya que en realidad saben muy poco en términos de por qué en teoría el aprendizaje profundo de las obras. (Recordar: El problema de optimización resuelto en el aprendizaje profundo es el de la minimización de una alta dimensión altamente no convexa de la función, y se sabe que es NP-duro en general. yo.e, no hay garantías de w.r.t alcanzar el mínimo global. Y, sin embargo, en la práctica, los profesionales han utilizado variantes de SGD a solucionar muchos de los problemas muy bien. Ha habido algunos avances recientes en dar justa respuesta de por qué esto es así, pero esto está fuera del alcance de su pregunta.)
Un muy buen ejemplo para algoritmos de dureza en el aprendizaje profundo es para intentar aprender de problemas en los que el gradiente no es informativo. El aprendizaje profundo se utiliza actualmente algún tipo de SGD a la actualización de los pesos de la red. por ejemplo, mini-lotes GD calcula el gradiente de la función de costo a través de una muestra aleatoria de $b$ ejemplos w.r.t. para los parámetros de $\theta$ :
$ \theta_{t+1} = \theta_t - \alpha_t \cdot \nabla_\theta J(\theta; x^{(i:i+b)},y^{(i:i+b)})$
En otras palabras, DL optimización está tratando a nivel mundial optimizar una función mediante el uso de locales gradiente de información; Esto sugiere que si un problema de aprendizaje se caracteriza por que los informativos de gradientes, entonces no hay aprendizaje profundo de la arquitectura será capaz de aprender.
El aprendizaje de azar paridades es el siguiente problema de aprendizaje:
Después de elegir un vector $\boldsymbol{v^*} > \en \left\{ 0,1\right\}^d $, el objetivo es formar un predictor de asignación de $\boldsymbol{x\in}\left\{ 0,1\right\} ^{d}$ a $y=\left(-1\right)^{\left\langle \boldsymbol{x,v^{*}}\right\rangle }$, donde $\boldsymbol{x}$ es distribuido uniformemente. En otras palabras, estamos tratando de aprender un mapeo que determina si el número de 1's en un cierto subconjunto de coordenadas de $\boldsymbol{x}$ (indicado por $\boldsymbol{v^*}$) es par o impar.
En "Fallas de Gradiente Basado en Aprendizaje Profundo" (Shamir, 2017), los autores demuestran que la este problema (y, más en general, cada función lineal compuesta con un periódico uno) sufre de los informativos de gradientes, lo que hace que el problema de optimización como difícil.
Ellos también demuestran que este empíricamente, mediante la medición de la precisión como una función del número de iteraciones de entrenamiento, para la entrada de varios dimensiones.
La red que se utiliza aquí es uno totalmente conectado capa de anchura $10d$ con ReLU activaciones, y totalmente conectado de la capa de salida lineal de activación y una sola unidad. (El ancho es elegida como para poder asegurar que la función de paridad es de hecho realizado por una red de ese tipo)
Q: ¿por Qué es que el aprendizaje de la paridad sólo se vuelve difícil en torno a $d=30$?
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.