5 votos

Análogo teórico de la probabilidad a las redes neuronales

Estoy intentando averiguar cómo realizar el aprendizaje utilizando lenguajes de programación probabilísticos. Para ello estoy siguiendo diferentes caminos para hacerme con la forma de pensar.

Entiendo la modelización mediante redes neuronales y comprendo cómo funciona el aprendizaje en este contexto. Ahora estoy intentando comprender el análogo en el razonamiento bayesiano.

Entiendo lo siguiente:

  • vector de entrada y salida de las redes neuronales corresponden a distribuciones (en particular, distribuciones categóricas)
  • matrices de pesos corresponde a la inferencia de una distribución a priori a una distribución a posteriori
  • algoritmos de aprendizaje como la retropropagación, corresponde a qué ?

Entonces, mi pregunta es ¿a qué corresponde el aprendizaje en la terminología de la teoría de la probabilidad? más concretamente: ¿Cómo aprender funciones de inferencia?

Puede que haya pasado por alto algo muy sencillo, incluso trivial. En ese caso, perdóneme esta pregunta.

4voto

Jason Lepack Puntos 2755

Representación del peso: En una red neuronal estándar, cada conexión tiene un valor de peso escalar. En una versión bayesiana de una red neuronal, cada conexión tiene un distribución de los valores de peso. En términos más generales, para cualquier nodo o neurona de una red neuronal estándar, existe un "abanico" de conexiones entrantes, cada una de las cuales tiene un único valor de peso escalar. En una red neuronal bayesiana, en cambio, hay un distribución conjunta de pesos en las conexiones en abanico.

Aprender: En una red neuronal estándar, el aprendizaje modifica el vector de valores de los pesos. Existen varios algoritmos de aprendizaje, generalmente motivados por el aumento de la consistencia o la disminución de una función de coste (por ejemplo, la reducción de errores en backprop).

En una red neuronal bayesiana, el aprendizaje cambia la distribución de los valores de peso. El aprendizaje en una red bayesiana funciona aplicando la regla de Bayes: La distribución previa a través de los pesos es el prior, la activación actual de los nodos son los datos, y entonces el aprendizaje ajusta la distribución de pesos según la regla de Bayes.

Quizá la versión más sencilla de una red neuronal bayesiana sea un "filtro de Kalman". No es más que un nodo lineal que ajusta su distribución de pesos con la regla de Bayes. Aquí hay un artículo que ofrece una descripción bastante introductoria, aunque está redactada en el lenguaje del aprendizaje asociativo en psicología: Kruschke, J. K. (2008). Enfoques bayesianos del aprendizaje asociativo: Del aprendizaje pasivo al activo. Learning & Behavior, 36(3), 210-226.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X