12 votos

Modelización matemática de redes neuronales como modelos gráficos

Me cuesta establecer la conexión matemática entre una red neuronal y un modelo gráfico.

En los modelos gráficos, la idea es sencilla: la distribución de probabilidad se factoriza en función de las camarillas del grafo, y los potenciales suelen ser de la familia exponencial.

¿Existe un razonamiento equivalente para una red neuronal? ¿Se puede expresar la distribución de probabilidad sobre las unidades (variables) en una máquina de Boltzmann restringida o una CNN como una función de su energía, o del producto de las energías entre unidades?

Además, ¿la distribución de probabilidad modelada por un RBM o una red de creencia profunda (por ejemplo, con CNNs) es de la familia exponencial?

Espero encontrar un texto que formalice la conexión entre estos tipos modernos de redes neuronales y la estadística de la misma manera que Jordan & Wainwright hicieron para los modelos gráficos con su Modelos gráficos, familias exponenciales e inferencia variacional . Cualquier consejo sería estupendo.

6voto

ostrokach Puntos 151

Otra buena introducción sobre el tema es el CSC321 curso en la Universidad de Toronto, y el redes neuronales-2012-001 en Coursera, ambos impartidos por Geoffrey Hinton.

Desde el vídeo sobre redes de creencias:

Modelos gráficos

Los primeros modelos gráficos utilizaban expertos para definir la estructura del grafo y las probabilidades condicionales. Los grafos estaban escasamente conectados y la atención se centraba en realizar inferencias correctas, no en aprender (el conocimiento procedía de los expertos).

Redes neuronales

Para las redes neuronales, el aprendizaje era fundamental. Cablear el conocimiento no estaba bien (vale, quizá un poco). El aprendizaje procedía de los datos de entrenamiento, no de los expertos. Las redes neuronales no buscaban la interpretabilidad de la conectividad dispersa para facilitar la inferencia. Sin embargo, existen versiones de redes neuronales de redes de creencias.


Según tengo entendido, las redes de creencias suelen estar demasiado densamente conectadas y sus camarillas son demasiado grandes para ser interpretables. Las redes de creencia utilizan la función sigmoidea para integrar las entradas, mientras que los modelos gráficos continuos suelen utilizar la función gaussiana. La sigmoide hace que la red sea más fácil de entrenar, pero es más difícil de interpretar en términos de probabilidad. Creo que ambas pertenecen a la familia exponencial.

No soy ni mucho menos un experto en la materia, pero los apuntes de clase y los vídeos son un gran recurso.

4voto

lmjohns3 Puntos 579

Radford Neal ha realizado un buen trabajo en este ámbito que podría interesarle, incluido cierto trabajo directo en la equiparación de los modelos gráficos bayesianos con las redes neuronales. (Al parecer, su tesis doctoral versó sobre este tema concreto).

No estoy lo suficientemente familiarizado con esta obra como para ofrecer un resumen inteligente, pero quería darle el puntero por si le resulta útil.

4voto

user76646 Puntos 106

Puede que este hilo sea antiguo, pero sigue siendo una pregunta pertinente.

El ejemplo más destacado de las conexiones entre Redes Neuronales (NN) y Modelos Gráficos Probabilísticos (MGP) es el que existe entre las Máquinas de Boltzmann (y sus variaciones como BM Restringidas, BM Profundas, etc.) y los MGP no dirigidos de Campo Aleatorio de Markov.

Del mismo modo, las redes de creencia (y sus variaciones, como Deep BN, etc.) son un tipo de MGP dirigidas de grafos bayesianos.

Para más información, véase:

  1. Yann Lecun, " Un tutorial sobre el aprendizaje basado en la energía " (2006)
  2. Yoshua Bengio, Ian Goodfellow y Aaron Courville, "Deep Learning", Ch 16 & 20 (libro en preparación, en el momento de escribir esto)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X