Estoy leyendo el libro de David Barber sobre razonamiento bayesiano y aprendizaje automático. En la sección 9.5.4 cubre los árboles de Chow-Liu, y estoy teniendo dificultades para entender el flujo de las ecuaciones después de que él introduce la divergencia KL como una forma de encontrar la mejor distribución aproximada. He escrito el problema a continuación.
Consideremos una distribución multivariante p(x)p(x) que deseamos aproximar con una distribución q(x) . Además, restringimos la aproximación q(x) para ser una BN en la que cada nodo tiene como máximo 1 padre. En primer lugar, suponemos que hemos elegido un etiquetado particular de las variables D para que los hijos tengan índices de padres más altos que sus padres. La restricción de padre único del DAG significa entonces:
q(x)=∏Di=1q(xi|xpa(i))
pa(i)<i o pa(i)=∅ , donde pa(i) es el índice de padre único del nodo i .
Para encontrar la mejor distribución aproximada de esta clase restringida, podemos minimizar la divergencia KL:
KL(p|q)=⟨logp(x)⟩p(x)−∑Di=1⟨logq(xi|xpa(i))⟩p(xi,xpa(i))
Mi pregunta es si estamos definiendo la divergencia KL como KL(q|p)=⟨logq(x)−logp(x)⟩q(x)
Entonces, ¿cómo se convirtió el subíndice en p(xi,xpa(i)) y no p(xi) en la ecuación antes de esto?