9 votos

¿Cómo podemos interpretar una red neuronal con sgd desde una perspectiva bayesiana?

En la probabilidad bayesiana, pensamos en tener una distribución a priori sobre un conjunto de modelos posibles, y en actualizar esta distribución cada vez que encontramos nueva información.

Pero con una red neuronal con descenso de gradiente, tenemos en cambio un único modelo en cualquier momento, y cambiamos "infinitamente" este modelo con cada nueva pieza de información.

¿Cómo podemos interpretar este enfoque desde una perspectiva bayesiana? Es decir, ¿podemos ver una red neuronal con descenso de gradiente como una aproximación a la actualización bayesiana? ¿Existe un buen artículo intuitivo sobre esto?

EDITAR mi pregunta no es "¿cuál es la diferencia entre la NN con SGD y los métodos bayesianos?" Mi pregunta es: "¿cómo podemos interpretar la NN con SGD desde una perspectiva bayesiana (por ejemplo, como una aproximación)?

7voto

user777 Puntos 10934

Creo que le interesará " Ascenso Gradiente Estocástico como Inferencia Bayesiana Aproximada "por Stephan Mandt, Matthew D. Hoffman y David M. Blei.

El Descenso Gradiente Estocástico con una tasa de aprendizaje constante (SGD constante) simula una cadena de Markov con una distribución estacionaria. Con esta perspectiva, derivamos varios resultados nuevos. (1) Mostramos que el SGD constante puede utilizarse como un algoritmo de inferencia posterior bayesiano aproximado. Específicamente, mostramos cómo ajustar los parámetros de sintonía de la SGD constante para que la distribución estacionaria coincida lo mejor posible con una posterior, minimizando la divergencia de Kullback-Leibler entre estas dos distribuciones. (2) Demostramos que la SGD constante da lugar a un nuevo algoritmo EM variacional que optimiza los hiperparámetros en modelos probabilísticos complejos. (3) También proponemos SGD con impulso para el muestreo y mostramos cómo ajustar el coeficiente de amortiguación en consecuencia. (4) Analizamos los algoritmos MCMC. Para Langevin Dynamics y Stochastic Gradient Fisher Scoring, cuantificamos los errores de aproximación debidos a las tasas de aprendizaje finitas. Finalmente (5), utilizamos la perspectiva del proceso estocástico para dar una breve prueba de por qué el promedio de Polyak es óptimo. Basándonos en esta idea, proponemos un algoritmo MCMC aproximado escalable, el Muestreador de Gradiente Estocástico Promediado.

Algunas publicaciones adicionales relevantes:

  • Radford M. Neal se dedicó a la inferencia bayesiana y a las redes neuronales en la "primera ola" de investigación sobre NN en la década de 1990. Publicó varios artículos y el libro Aprendizaje bayesiano para redes neuronales .

  • Sergios Theodoridis Aprendizaje automático: Una perspectiva bayesiana y de optimización es un tomo realmente enorme (unas 1000 páginas) e incluye un capítulo sobre redes neuronales y aprendizaje profundo.

  • Este documento pasó por mi mesa hace poco: " Redes neuronales bayesianas " por Vikram Mullachery, Aniruddh Khera, Amir Husain

    Este artículo describe y analiza la red neuronal bayesiana (BNN). El documento muestra algunas aplicaciones diferentes de las mismas para problemas de clasificación y regresión. Las BNN están compuestas por un modelo probabilístico y una red neuronal. La intención de este diseño es combinar los puntos fuertes de las Redes Neuronales y del modelado estocástico. Las redes neuronales presentan capacidades de aproximación de funciones continuas. Los modelos estocásticos permiten la especificación directa de un modelo con interacción conocida entre los parámetros para generar datos. Durante la fase de predicción, los modelos estocásticos generan una distribución posterior completa y producen garantías probabilísticas sobre las predicciones. Así pues, las BNN son una combinación única de redes neuronales y modelos estocásticos, siendo el modelo estocástico el núcleo de esta integración. Las BNN pueden entonces producir garantías probabilísticas sobre sus predicciones y también generar la distribución de los parámetros que ha aprendido de las observaciones. Esto significa que, en el espacio de los parámetros, se puede deducir la naturaleza y la forma de los parámetros aprendidos por la red neuronal. Estas dos características las hacen muy atractivas tanto para los teóricos como para los profesionales. Recientemente ha habido una gran actividad en este ámbito, con la aparición de numerosas bibliotecas de programación probabilística como: PyMC3, Edward, Stan, etc. Además, esta área está ganando rápidamente terreno como un enfoque de aprendizaje automático estándar para numerosos problemas

1voto

Silvercode Puntos 438

El enfoque bayesiano de los problemas probabilísticos suele utilizar modelos gráficos como:

$X \sim F(Y)$

$Y \sim G(Z)$

$Z \sim H$

Cuando un conjunto de observaciones tiene una distribución condicionada a otra.

Esto es lo más $\dagger$ de lo que se necesita para las redes neuronales ( encuesta ). Por ejemplo, el modelo anterior podría describir una red de una sola capa en la que $Y$ era la activación en la capa oculta, $X$ las observaciones, y $Z$ una clase latente. Sólo estaríamos "escondiendo" algunas transformaciones no lineales en $F$ , $G$ etc.

Hay que tener en cuenta que las redes neuronales $\neq$ descenso por gradiente. El descenso de gradiente no es más que una forma especialmente eficaz de ajustar los modelos. Una técnica de inferencia bayesiana que aprovecha las mismas herramientas es Bayes Variacionales . Aunque hay enfoques de muestreo (HMC, SGLD, etc.) que también pueden hacer uso de la información del gradiente.

Así pues, la diferencia es que en un enfoque bayesiano también se obtiene cierta información sobre la distribución de los parámetros del modelo, además de una estimación puntual de los mismos. Esto podría ayudar, por ejemplo, en problemas en los que una peturbación de los parámetros provocaría una reclasificación de una observación que afectaría a su toma de decisiones.

$\dagger$ se plantea la cuestión de cómo hacer cosas como la agrupación de máximos, abandonar y así sucesivamente. Muchas de estas operaciones tienen análogos bayesianos en forma de distribuciones o transformaciones particulares.

0 votos

Algunos argumentan que el descenso por gradiente no es "particularmente eficaz" tampoco, sólo es conveniente, ver youtube.com/watch?v=Qi1Yry33TQE

0 votos

Por supuesto, el descenso gradual no es el mejor optimizador posible. Sin embargo, los sistemas entrenados por el SGD tienen muchos logros en su haber. Yo diría que han demostrado su eficacia, dada la tecnología actual y en relación con otras soluciones disponibles.

1voto

Dipstick Puntos 4869

La respuesta simple, casi genérica, a tal pregunta es que la diferencia es que los bayesianos definen los modelos en términos probabilísticos, por lo que los parámetros son considerados como variables aleatorias y asumen priores para tales parámetros.

En la configuración clásica, el modelo tiene algunos parámetros y se utiliza algún tipo de optimización para encontrar los parámetros que mejor se ajustan a los datos. En las redes neuronales esto se hace casi exclusivamente comenzando con algunos parámetros inicializados al azar y luego utilizando alguna variante del descenso de gradiente para actualizar los parámetros, de modo que la pérdida se minimice.

En el entorno bayesiano, en lugar de estimaciones puntuales de los parámetros, queremos estimar las distribuciones de los parámetros, porque los consideramos variables aleatorias. Para ello, se parte de unas a priori distribuciones asumidas para los parámetros, que se actualizan utilizando el teorema de Bayes cuando se enfrentan a los datos. Esto se suele hacer con algún tipo de optimización, o mediante el muestreo de Markov Chain Monte Carlo (simulando extracciones de la posterior distribución).

Así, el descenso de gradiente es un algoritmo de optimización, mientras que el enfoque bayesiano consiste en definir los modelos de forma diferente (véase también esta comparación de máxima verosimilitud y descenso de gradiente ). Utilizar el descenso de gradiente para minimizar algún tipo de función de pérdida no tiene mucho que ver con el enfoque bayesiano, ya que no tiene en cuenta ninguna preponderancia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X