6 votos

Si la divergencia KL es asimétrica, ¿debo minimizar KL(P||Q) o KL(Q||P)?

Supongamos que estoy ajustando la distribución $Q$ para conseguir un mejor ajuste de la distribución $P$ ¿debo minimizar $KL(P||Q)$ o $KL(Q||P)$ ? ¿Cuál es la diferencia?


Pregunta relacionada:

Intuición sobre la divergencia de Kullback-Leibler (KL)

0 votos

No es una medida de distancia. No es una métrica.

1 votos

¿Puede aclarar en qué difiere su pregunta de la del hilo enlazado? Si no es lo que quieres, edita tu pregunta para indicar lo que has aprendido y lo que aún necesitas saber. Así podremos proporcionarle la información que necesita sin duplicar material que no le ha servido de ayuda.

4voto

Taylor Puntos 692

Normalmente se desea $KL(Q||P)$ . Eso es de $P$ a $Q$ . Recuerdo que va de derecha a izquierda, igual que la notación para probabilidades condicionales.

Quieres que la expectativa se tome con respecto a la distribución verdadera $P$ . De este modo, se puede suponer que las medias muestrales convergen a las expectativas reales, por la ley de los grandes números.

0 votos

Gracias por la respuesta. ¿Qué opina de este libro ¿página 74?

1 votos

@hxd1011 oh eso es interesante. Tiene sentido que haciéndolo de diferentes maneras te de diferentes respuestas (veo todos estos comentarios sobre asimetría arriba). Definitivamente estaría interesado en ver algunos ejemplos de la vida real de las personas que van de la otra manera con él.

3voto

user150025 Puntos 19

La divergencia KL no es un distancia por eso la palabra alternativa divergencia en su lugar. Si quieres simetría puedes tomar la suma de $KL(Q||P)$ y $KL(P||Q)$ como se menciona en una de las respuestas del post enlazado.

La intuición es que no se conoce la verdadera distribución $Q$ así que haces una estimación o una conjetura de la verdadera distribución $P$ . Ambos pueden pertenecer a la misma familia paramétrica o no parecerse en nada. Por lo tanto, para comprender en qué medida las probabilidades asignadas (una visión de los acontecimientos) se alejan de las probabilidades reales (en qué medida las dos perspectivas diverge ) tomaría una expectativa bajo sus probabilidades estimadas. Sin embargo, seguiría siendo así divergencia ser $0$ si de alguna manera especificaste el modelo exacto, para asegurarte de ello restas ese valor verdadero. Utilizando la propiedad logaritmo $log(x/y) =log(x) - log(y)$ se obtiene la ecuación de divergencia KL.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X