6 votos

Uso de la Divergencia KL en la práctica

No es simétrica, por lo que realmente no se puede usar como una métrica de distancia.

Supongo que dadas dos distribuciones conocidas p(x) y q(x), si se encontrara otra distribución z(x) pero se supiera que proviene de p o q, se podría comparar la divergencia de cada una para resolver la pregunta.

Sin embargo, vengo de un fondo de aprendizaje automático y me gustaría entender cómo podría usarse en ese contexto (prácticamente, no teóricamente hablando) - ¿se puede usar / se usa comúnmente para crear clasificadores o extraer características?

1 votos

Nunca lo he visto utilizado de esa manera. Fuera de su uso en la demostración de resultados teóricos, lo he visto aplicado como una especie de prueba de normalidad tipo bayesiana. Es decir, dado un conjunto de posibles modelos que asumen normalidad en los residuos, podrías usar esta métrica para recopilar razones de probabilidad sobre la hipótesis de que los residuos/errores de pronóstico de los modelos son realmente normales. Esto implica comparar la densidad de normalidad estimada en los residuos con una estimación empírica como kde. En teoría, esto podría ayudar a seleccionar modelos bien especificados ... pero no lo he visto usado en ML.

8voto

bitbonk Puntos 222

La divergencia de Kullback-Leibler se utiliza ampliamente en la inferencia variacional, donde se construye un problema de optimización que tiene como objetivo minimizar la divergencia KL entre la distribución objetivo inaccesible P y un elemento buscado Q de una clase de distribuciones tratables.

Entonces, la "dirección" de la divergencia KL debe ser elegida de tal manera que la esperanza se tome con respecto a Q para que la tarea sea factible.

Muchos algoritmos de aproximación (que también se pueden utilizar para ajustar modelos probabilísticos a datos) se pueden interpretar de esta manera. Entre ellos se encuentran Mean Field, (Loopy) Belief Propagation (generalizando hacia adelante-atrás y Viterbi para HMMs), Expectation Propagation, Junction graph/tree, tree-reweighted Belief Propagation y muchos más.

Referencias

  • Wainwright, M. J. and Jordan, M. I. Modelos gráficos, familias exponenciales e inferencia variacional, Foundations and Trends® in Machine Learning, Now Publishers Inc., 2008, Vol. 1(1-2), pp. 1-305
  • Yedidia, J. S.; Freeman, W. T. & Weiss, Y. Construcción de aproximaciones de energía libre y algoritmos de propagación de creencias generalizados, Information Theory, Transactions on IEEE, IEEE, 2005, 51, 2282-2312

0 votos

Disculpas, es posible que tengas que simplificar un poco esto o ser más específico en lugar de abstracto. Sé que la minimización de la entropía cruzada se utiliza como una métrica de optimización para el entrenamiento de modelos de redes neuronales, si eso es lo que quieres decir. ¿Puedes citar algunos ejemplos concretos?

0 votos

@lollercoaster ¿Qué calificaría como un "ejemplo concreto"?

0 votos

Se construye un problema de optimización que tiene como objetivo minimizar la divergencia KL entre la distribución objetivo inaccesible P y un elemento buscado Q de una clase de distribuciones tratables -> ¿Puedes citar un ejemplo quizás con el que hayas trabajado con un conjunto de datos reales y cómo te ayudó esto?

6voto

Guillaume Dehaene Puntos 740

KL se usa ampliamente en el aprendizaje automático. Las dos principales formas que conozco

  • compresión: comprimir un documento en realidad consiste en encontrar un buen modelo generativo para él. Dado que el verdadero modelo tiene una distribución de probabilidad $p(x)$ mientras que usas el aproximado $q(x)$, tendrás que usar bits adicionales para codificar una secuencia de valores de $X$. El costo adicional que pagas es KL(p,q)

  • inferencia aproximada bayesiana: los métodos bayesianos son excelentes para ML, pero también es extremadamente costoso computacionalmente obtener el posterior. Dos soluciones: o usas métodos de muestreo (MCMC, gibbs, etc) O usas métodos de inferencia aproximada que buscan encontrar una aproximación simple (por ejemplo Gaussiana) al posterior. La mayoría de los métodos de inferencia aproximada hacen referencia a KL de alguna manera: los llamados métodos "variacionales" (este nombre apesta) minimizan KL(q,p), etc. La inferencia aproximada está presente en gran parte de la investigación en aprendizaje automático, también lo está KL

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X