En realidad, hay muchas formas de incorporar el conocimiento previo a las redes neuronales. El tipo más sencillo de conocimiento previo que se suele utilizar es disminución de peso . El decaimiento del peso asume que los pesos provienen de una distribución normal con media cero y alguna varianza fija. Este tipo de prioridad se añade como un término adicional a la función de pérdida, con la forma
$$\mathcal{L}(w) = E(w) + \lambda\frac{1}{2}||w||_2^2,$$
donde $E(w)$ es el término de datos (por ejemplo, una pérdida MSE) y $\lambda$ controla la importancia relativa de los dos términos; también es proporcional a la varianza a priori. Corresponde a la log-verosimilitud negativa de la siguiente probabilidad: $$p(w|\mathcal{D})\propto p(\mathcal D|w)p(w),$$ donde $p(w)=\mathcal N(w|0,\lambda^{-1}I)$ y $-\log p(w)\propto -\log\,\exp(-\frac{\lambda}{2}||w||_2^2)=\frac{\lambda}{2}||w||_2^2$ . Esto es lo mismo que el enfoque bayesiano para modelar el conocimiento previo.
Sin embargo, también existen otros métodos menos sencillos para incorporar el conocimiento previo a las redes neuronales. Son muy importantes: el conocimiento previo es lo que realmente sirve de puente entre las enormes redes neuronales y los conjuntos de datos (relativamente) pequeños. Algunos ejemplos son:
Aumento de datos : Al entrenar la red con datos perturbados por varias transformaciones que preservan la clase, está incorporando su conocimiento previo sobre el dominio, es decir, las transformaciones a las que la red debe ser invariable.
Arquitectura de la red : Una de las técnicas de redes neuronales más exitosas de las últimas décadas son las redes convolucionales. Su arquitectura, que comparte núcleos de campo de visión limitados sobre ubicaciones espaciales, explota brillantemente nuestro conocimiento sobre los datos en el espacio de la imagen. Esto es también una forma de conocimiento previo incorporado al modelo.
Términos de pérdida de regularización : Al igual que el decaimiento del peso, es posible construir otros términos de pérdida que penalicen los mapeos que contradigan nuestro conocimiento del dominio.
Para un análisis/revisión en profundidad de estos métodos, puedo remitirle a mi artículo Regularización para el aprendizaje profundo: Una taxonomía . Además, le recomiendo que busque en redes neuronales bayesianas , meta-aprendizaje (encontrar información previa significativa de otras tareas en el mismo dominio, ver por ejemplo (Baxter, 2000) ), posiblemente también aprendizaje único (por ejemplo (Lake et al., 2015) ).