Este documento da un poco suave introducción a la inferencia Bayesiana: http://www.miketipping.com/papers/met-mlbayes.pdf
Llegué a la sección 2.3 sin mucho problemas, pero se quedó atascado en el entendimiento de que la sección en adelante. Se inicia mediante la presentación de un marco de regresión probabilística cuando la probabilidad de que todos los datos está dada como:
$$ p(t|x,w,\sigma^2) = \prod_{n}p\left(t_n|x_n,w,\sigma^2\right) $$ donde $t_n=y(x_n;w)+\epsilon_n$ es el 'target' de valor. Siguiente, dado un conjunto de parámetros de $w$ y un hyperparameter $\alpha$, el estado está dada como: $$ p(w|\alpha)=\prod_{m}\left(\frac{\alpha}{2\pi}\right)^{1/2}\exp\left({-\frac{\alpha}{2}w_m^2}\right) $$
Puedo calcular la parte posterior de la $p\left(w|t,\alpha,\sigma^2\right)$. Lo que no entiendo es la siguiente:
- En la primera ecuación anterior, ¿cómo debo interpretar el producto a través de la $N$ pares de datos $(t_n,x_n)$? Digamos que tengo dos mediciones iniciales desde el mundo real, es $p\left(t|x,w,\sigma^2\right)$ se supone que me da un único valor real de la probabilidad? Y ¿cómo se cuenta para $w$ ya que no se sabe todavía?
- Tal y como yo lo tengo, $w$ se supone que es un vector de tamaño $M$ donde $w_i$ contiene el $i$th valor estimado. Ahora, ¿cómo puede un previo para $w$ tiene una referencia a su propio vector de elementos si no los conozco todavía? No debe de un antes de ser independiente de la distribución, tales como una Gaussiana o Beta? También, no debe de un antes de ser independiente de hyperparameters?
- La figura 4, en la página del artículo 8 dispone de una parcela a partir de los anteriores y de los posteriores de un ejemplo de uso de la $y=\sin(x)$ función con el añadido de Gauss variación de 0.2. ¿Cómo podría yo trama algo similar, por ejemplo, en Octave/Matlab o R?
No tengo una sólida formación en las estadísticas así que me perdone si esto es demasiado básica. Cualquier ayuda es muy apreciada.
Gracias de antemano!