No creo que pueda haber una única respuesta para todos los modelos de aprendizaje profundo. Cuáles de los modelos de aprendizaje profundo son paramétricos y cuáles no lo son, y por qué?
Respuestas
¿Demasiados anuncios?Los modelos de aprendizaje profundo suelen ser paramétricos; de hecho, tienen un enorme número de parámetros, uno por cada peso que se ajusta durante el entrenamiento.
Como el número de pesos suele permanecer constante, técnicamente tienen grados de libertad fijos. Sin embargo, como suele haber tantos parámetros, puede considerarse que emulan a los no paramétricos.
Los procesos gaussianos (por ejemplo) utilizan cada observación como un nuevo peso y, a medida que el número de puntos llega a infinito, también lo hace el número de pesos (no confundir con hiperparámetros).
Digo en general porque hay muchos sabores diferentes de cada modelo. Por ejemplo, los GP de bajo rango tienen un número limitado de parámetros que se deducen de los datos y estoy seguro de que alguien ha estado haciendo algún tipo de dnn no paramétrico en algún grupo de investigación.
Una red neuronal profunda (DNN) estándar es, técnicamente hablando, paramétrico ya que tiene un número fijo de parámetros. Sin embargo, la mayoría de las DNN tienen tantos parámetros que ellos podría interpretarse como no paramétricos ; se ha demostrado que en el límite de anchura infinita, una red neuronal profunda puede verse como un proceso gaussiano (GP), que es un modelo no paramétrico [Lee et al., 2018].
No obstante, vamos a interpretar estrictamente las DNN como paramétricas para el resto de esta respuesta.
Algunos ejemplos de paramétrico son los modelos de aprendizaje profundo:
- Red autorregresiva profunda (DARN)
- Red de creencias sigmoidea (SBN)
- Red neuronal recurrente (RNN), Pixel CNN/RNN
- Autoencoder variacional (VAE), otros modelos gaussianos latentes profundos, por ejemplo DRAW
Algunos ejemplos de no paramétrico son los modelos de aprendizaje profundo:
- Procesos gaussianos profundos (GP)
- GP recurrente
- Espacio de estado GP
- Proceso Dirichlet jerárquico
- Proceso de bufé indio en cascada
Imagen de Tutorial de Shakir Mohamed sobre modelos generativos profundos .
Referencias:
Los modelos de aprendizaje profundo no deben considerarse paramétricos. Los modelos paramétricos se definen como modelos basados en una suposición a priori sobre las distribuciones que generan los datos. Las redes profundas no hacen suposiciones sobre el proceso de generación de datos, sino que utilizan grandes cantidades de datos para aprender una función que asigna entradas a salidas. El aprendizaje profundo es no paramétrico según cualquier definición razonable.
Deutsch y Journel (1997, pp. 16-17) opinaron sobre la naturaleza engañosa del término "no paramétrico". Sugirieron que ≪...la terminología modelo "rico en parámetros" debería mantenerse para los modelos basados en indicadores en lugar del calificativo tradicional pero engañoso "no paramétrico"≫.
"Rico en parámetros" puede ser una descripción exacta, pero "rico" tiene una carga emocional que le confiere una visión positiva que puede no estar siempre justificada (!).
Todavía hay profesores que se refieren colectivamente a las redes neuronales, los bosques aleatorios y similares como "no paramétricos". La mayor opacidad y la naturaleza fragmentaria de las redes neuronales (especialmente con la difusión de las funciones de activación ReLU) las convierten en no paramétricas. esque .