Me he topado varias veces con esta afirmación
Maximizar la verosimilitud equivale a minimizar la divergencia KL
(Fuentes: Divergencia de Kullback-Leibler y Máxima verosimilitud como minimización de la disimilitud entre la distribución empírica y la distribución modelo. )
Me gustaría saber, en aplicaciones como VAE, ¿por qué utilizar la divergencia KL en lugar de la MLE? ¿En qué aplicaciones elegiría una sobre la otra? ¿Y alguna razón específica para ello dado que ambas son equivalentes?