Sugiero este video de Hugo Larochelle.
En pocas palabras, las redes neuronales autorregresivas están diseñadas para predecir algunas dimensiones a partir de un subconjunto de otras dimensiones; por ejemplo, en las imágenes, para predecir un píxel a partir de un subconjunto de otros píxeles; en las series temporales, para predecir una muestra temporal a partir de un subconjunto de muestras temporales.
Obsérvese que, en el caso de las series temporales, algunos modelos no se limitan al natural ordenación de las dimensiones, y se entrenan para predecir una muestra de tiempo dada ambos muestras de tiempo pasadas y futuras.
Los ejemplos incluyen NADE, PixelCNN, PixelRN, ...