En la probabilidad bayesiana, pensamos en tener una distribución a priori sobre un conjunto de modelos posibles, y en actualizar esta distribución cada vez que encontramos nueva información.
Pero con una red neuronal con descenso de gradiente, tenemos en cambio un único modelo en cualquier momento, y cambiamos "infinitamente" este modelo con cada nueva pieza de información.
¿Cómo podemos interpretar este enfoque desde una perspectiva bayesiana? Es decir, ¿podemos ver una red neuronal con descenso de gradiente como una aproximación a la actualización bayesiana? ¿Existe un buen artículo intuitivo sobre esto?
EDITAR mi pregunta no es "¿cuál es la diferencia entre la NN con SGD y los métodos bayesianos?" Mi pregunta es: "¿cómo podemos interpretar la NN con SGD desde una perspectiva bayesiana (por ejemplo, como una aproximación)?