9 votos

Incorporación de conocimientos previos a las redes neuronales artificiales

Las redes neuronales artificiales tienen la mala fama de ser una caja negra. Además, en los casos en los que tenemos algún conocimiento previo sobre el dominio de un determinado problema de aprendizaje supervisado, no es obvio cómo introducirlo en el modelo.

Por otro lado, los modelos bayesianos y el estado del arte de los mismos -las redes bayesianas- resuelven este problema de forma natural. Pero estos modelos tienen sus propias limitaciones conocidas.

  • ¿Es posible tomar lo mejor de los dos tipos de modelos? ¿Existe alguna teoría o caso práctico de éxito en la combinación de ambos tipos de modelos en un híbrido?

  • Y, en general, cuáles son las estrategias conocidas para incorporar el conocimiento previo a un modelo de red neuronal (feed forward o recurrente)

6voto

Jan Kukacka Puntos 1027

En realidad, hay muchas formas de incorporar el conocimiento previo a las redes neuronales. El tipo más sencillo de conocimiento previo que se suele utilizar es disminución de peso . El decaimiento del peso asume que los pesos provienen de una distribución normal con media cero y alguna varianza fija. Este tipo de prioridad se añade como un término adicional a la función de pérdida, con la forma

$$\mathcal{L}(w) = E(w) + \lambda\frac{1}{2}||w||_2^2,$$

donde $E(w)$ es el término de datos (por ejemplo, una pérdida MSE) y $\lambda$ controla la importancia relativa de los dos términos; también es proporcional a la varianza a priori. Corresponde a la log-verosimilitud negativa de la siguiente probabilidad: $$p(w|\mathcal{D})\propto p(\mathcal D|w)p(w),$$ donde $p(w)=\mathcal N(w|0,\lambda^{-1}I)$ y $-\log p(w)\propto -\log\,\exp(-\frac{\lambda}{2}||w||_2^2)=\frac{\lambda}{2}||w||_2^2$ . Esto es lo mismo que el enfoque bayesiano para modelar el conocimiento previo.

Sin embargo, también existen otros métodos menos sencillos para incorporar el conocimiento previo a las redes neuronales. Son muy importantes: el conocimiento previo es lo que realmente sirve de puente entre las enormes redes neuronales y los conjuntos de datos (relativamente) pequeños. Algunos ejemplos son:

Aumento de datos : Al entrenar la red con datos perturbados por varias transformaciones que preservan la clase, está incorporando su conocimiento previo sobre el dominio, es decir, las transformaciones a las que la red debe ser invariable.

Arquitectura de la red : Una de las técnicas de redes neuronales más exitosas de las últimas décadas son las redes convolucionales. Su arquitectura, que comparte núcleos de campo de visión limitados sobre ubicaciones espaciales, explota brillantemente nuestro conocimiento sobre los datos en el espacio de la imagen. Esto es también una forma de conocimiento previo incorporado al modelo.

Términos de pérdida de regularización : Al igual que el decaimiento del peso, es posible construir otros términos de pérdida que penalicen los mapeos que contradigan nuestro conocimiento del dominio.

Para un análisis/revisión en profundidad de estos métodos, puedo remitirle a mi artículo Regularización para el aprendizaje profundo: Una taxonomía . Además, le recomiendo que busque en redes neuronales bayesianas , meta-aprendizaje (encontrar información previa significativa de otras tareas en el mismo dominio, ver por ejemplo (Baxter, 2000) ), posiblemente también aprendizaje único (por ejemplo (Lake et al., 2015) ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X