1 votos

Fórmula de probabilidad para el posterior con 3 variables

Primer post en math.stackexchange; disculpen si esto es ingenuo/repetido.

Estoy siguiendo este documento del profesor David M. Blei: http://www.cs.princeton.edu/courses/archive/fall11/cos597C/lectures/variational-inference-i.pdf

En esto, no entiendo muy bien cómo llegó a la fórmula de distribución posterior para p(u, z|x) en la sección "Motivación" - punto número 3.

Intento pensar en términos de vectores. También sé que la fórmula hace una suposición de independencia entre los componentes individuales de los vectores x y z (de ahí las multiplicaciones con el subíndice "i"). También sé que el denominador es p(x), ya que u y z obviamente se están "integrando". Además, u es un parámetro continuo, z es discreto. De ahí la integral y la suma en el denominador respectivamente.

Pero centrémonos ahora sólo en el numerador. El primer término, es obviamente p(u) (¿o no?). El segundo término es lo que no soy capaz de entender. ¿Es alguna forma de p(x, z | u)?

Otra pregunta: En la sección "Configuración" - punto 2, la posterior se define como p(z | x, ). Obsérvese que el está en el lado derecho del "|". Ahora, en la sección "Motivación" - punto 3, la posterior se define como p(µ1:K, z1:n | x1:n). Una suposición justa (OMI) es que = µ1:K, es decir, los parámetros de este modelo. ¿Cómo se salta a la lado izquierdo de la "|" en esta definición de la posterioridad entonces?

Nota: La notación utilizada en la pregunta anterior es la siguiente:

u : mu, los parámetros de la distribución gaussiana asumida.

x : un vector de variables, digamos x_i, donde i = 1:N

z : variables latentes asociadas a cada x anterior. También es un vector de dimensión M.

¡Gracias, y cualquier/toda ayuda es apreciada!

0voto

TracyYXChen Puntos 103
  1. Demos un paso atrás: cuando sólo tenemos dos variables, sabemos que la posterior podría escribirse como $P(B|A) = \frac{P(A|B)P(B)}{P(A)}$ . En este caso, cuando tenemos tres variables, tratemos primero ( $\mu$ , $z$ ) en su conjunto: $$P(\mu,z|x) = \frac{P(x|\mu,z)P(\mu,z)}{P(x)} $$ Desde $\mu$ y $z$ son independientes, también podría escribirse como $$P(\mu,z|x) = \frac{P(\mu)P(z)P(x|\mu,z)}{P(x)}$$ Como $\mu$ es un vector de K dimensiones, y tanto $z$ y $x$ son $n$ -vectores dimensionales, entonces los dos últimos podrían compartir un operador de producto de 1 a $n$ .

  2. El hiperparámetro $\alpha$ es $\pi$ en esta derivación, pero se omite en esas expresiones. Aparece como "Mult( $\pi$ )" en el segundo punto de la sección "2. Motivación". $\pi$ es el vector K-dimensional de los pesos de los clusters. Dicho esto, el valor de cada elemento en $z$ va de 1 a K (o de 0 a K-1 si se prefiere el índice 0).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X