8 votos

Tratando de entender los fundamentos de la inferencia bayesiana

Este documento da un poco suave introducción a la inferencia Bayesiana: http://www.miketipping.com/papers/met-mlbayes.pdf

Llegué a la sección 2.3 sin mucho problemas, pero se quedó atascado en el entendimiento de que la sección en adelante. Se inicia mediante la presentación de un marco de regresión probabilística cuando la probabilidad de que todos los datos está dada como:

$$ p(t|x,w,\sigma^2) = \prod_{n}p\left(t_n|x_n,w,\sigma^2\right) $$ donde $t_n=y(x_n;w)+\epsilon_n$ es el 'target' de valor. Siguiente, dado un conjunto de parámetros de $w$ y un hyperparameter $\alpha$, el estado está dada como: $$ p(w|\alpha)=\prod_{m}\left(\frac{\alpha}{2\pi}\right)^{1/2}\exp\left({-\frac{\alpha}{2}w_m^2}\right) $$

Puedo calcular la parte posterior de la $p\left(w|t,\alpha,\sigma^2\right)$. Lo que no entiendo es la siguiente:

  • En la primera ecuación anterior, ¿cómo debo interpretar el producto a través de la $N$ pares de datos $(t_n,x_n)$? Digamos que tengo dos mediciones iniciales desde el mundo real, es $p\left(t|x,w,\sigma^2\right)$ se supone que me da un único valor real de la probabilidad? Y ¿cómo se cuenta para $w$ ya que no se sabe todavía?
  • Tal y como yo lo tengo, $w$ se supone que es un vector de tamaño $M$ donde $w_i$ contiene el $i$th valor estimado. Ahora, ¿cómo puede un previo para $w$ tiene una referencia a su propio vector de elementos si no los conozco todavía? No debe de un antes de ser independiente de la distribución, tales como una Gaussiana o Beta? También, no debe de un antes de ser independiente de hyperparameters?
  • La figura 4, en la página del artículo 8 dispone de una parcela a partir de los anteriores y de los posteriores de un ejemplo de uso de la $y=\sin(x)$ función con el añadido de Gauss variación de 0.2. ¿Cómo podría yo trama algo similar, por ejemplo, en Octave/Matlab o R?

No tengo una sólida formación en las estadísticas así que me perdone si esto es demasiado básica. Cualquier ayuda es muy apreciada.

Gracias de antemano!

2voto

karim79 Puntos 178055

Primera pregunta:

El producto es la probabilidad conjunta de la muestra, a menudo, también llamado la probabilidad (véase la nota de pie de página en la página 5). Sí, se le da una sola probabilidad. Es simplemente el individuo probabilidades multiplicados juntos, ya que se supone que son independientes. Esta ecuación es como una especie de paso intermedio. A partir de ahí, soltar $x$ de la notación. Entonces terminan con la ecuación (11), donde esta primera ecuación se combina con un antes y la normalización de la constante. Esta es la esencia de la inferencia Bayesiana: no sabemos el parámetro de $w$, pero sabemos que los datos que de él depende. Utilizando el teorema de Bayes, podemos así obtener una distribución posterior por tener una distribución previa.

Segunda pregunta:

El vector $\mathbf{w}=(w_1, w_2, \dots, w_M)$ no contiene estimaciones. Contiene las variables aleatorias $w_1, w_2, \dots, w_M$, es decir los parámetros. No está seguro de cómo/donde hacen referencia a sí mismos?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X