En mi opinión, la divergencia KL de la distribución de la muestra a la distribución verdadera es simplemente la diferencia entre la entropía cruzada y la entropía.
¿Por qué usamos la entropía cruzada para ser la función de costo en muchos modelos de aprendizaje automático, pero usamos la divergencia Kullback-Leibler en t-sne? ¿Hay alguna diferencia en la velocidad de aprendizaje?