7 votos

¿Cómo interpretar la distribución de los parámetros en la estimación bayesiana?

Soy nuevo en la estimación Bayesiana. La suposición de que los parámetros son variables aleatorias parece un poco inquietante para mí. Por ejemplo, cuando se considera un modelo para los datos, ¿qué interpretación física le puedo dar a la ecuación

$$ \begin{eqnarray*} P(Data) & = & \sum_{\theta} {P(Data,\theta)} \\ & = & \sum_{\theta} {P(Data|\theta)*P(\theta)} \end{eqnarray*} $$

Esta $P(\theta)$ es decir, la probabilidad de los parámetros, parece ser un poco incómodo, después de todo ¿cómo puedo saber cuál es la probabilidad relativa de que el proceso de generación de ser una gaussiana MM con esta particular combinación de parámetros en lugar de decir que una red neuronal con el parámetro de configuración.

Y es más, es intuitivo pensar de un proceso de generación de los datos, cuyos parámetros estamos adivinando. Pero en cambio aquí tenemos varios procesos de generación de los datos en tándem, es decir, un sentido de un verdadero modelo está perdido.

3voto

James Sutherland Puntos 2033

¿cómo puedo saber cuál es la probabilidad relativa de que el proceso de generación de ser una gaussiana MM con esta particular combinación de parámetros en lugar de decir que una red neuronal con el parámetro de configuración.

Su $\theta$ es el conjunto de parámetros en el modelo. Así que para un modelo de mezcla de Gaussianas son los medios, covarianzas, y de los parámetros de mezcla. En una Red Neuronal son los pesos y sesgos. Estos son totalmente diferentes conjuntos de cantidades, así que no hay razón para pensar que el $P(\theta)$ en cualquiera de los casos va a estar relacionados, ya sea a priori o después de ver a $D$.

$P(D \mid \theta)$ es la parte de la fórmula que se llevará a cabo como un modelo de mezcla o de una red, o lo que sea. Pero usted tiene que decidir, de lo contrario su previo es para el mal las cantidades, que no tiene ningún sentido.

Y es más, es intuitivo pensar de un proceso de generación de los datos, cuyos parámetros estamos adivinando. Pero en cambio aquí tenemos varios procesos de generación de los datos en tándem, es decir, un sentido de un verdadero modelo está perdido.

Usted ya pensar de los datos como potencialmente generados por diferentes valores de $\theta$ antes de cualquier Bayesiano surgen las preguntas. Después de todo, la probabilidad indica la probabilidad de los datos han sido generados bajo diferentes conjuntos de valores. Pero su 'tándem' idea sugiere que creo que todos lo hacemos 'todos a la vez" en el caso Bayesiano, por lo que no hay sentido de 'verdadero modelo". Eso es un error. Tal vez piense en ello como esto:

Llamada la "verdadera parámetros del modelo' $\theta_0$. Bayesians y que todo el mundo está de acuerdo en que estas son las cosas que queremos saber acerca de. A continuación, $D$ es en realidad una muestra de $P(D \mid \theta_0)$. No conozco la $\theta_0$ es.

Nuestra $P(D \mid \theta)$ donde $\theta$ es cualquier valor de los parámetros, sólo especifica el mecanismo por el cual la $D$ se supone que para ser generado si supiéramos lo que los parámetros fueron - un "modelo directo" si te gusta. A menudo es directamente la física, creo que de la $\theta$ como la configuración de un panel de control. Bayesiano métodos comienzan con $P(\theta)$ - sus opiniones o conocimiento acerca de lo $\theta_0$ podría ser antes de ver $D$, y, a continuación, en la condición de $D$ conseguir $P(\theta \mid D)$ - su nuevo opiniones o conocimiento acerca de lo $\theta_0$ es después de ver $D$.

La suma presente de arriba es realmente útil sobre todo como una normalización de la constante en el camino para llegar a $P(\theta \mid D)$ que realmente es útil. Es nuestra actualización de las creencias acerca de la $\theta_0$. Tiene algunas otras funciones, como 'evidencia', pero para el propósito de su pregunta estos no son pertinentes.

2voto

Max Muller Puntos 155

Esto era demasiado largo para los comentarios, así que publica aquí. A partir de lo que los otros han señalado, de pensar acerca de la previa, como una creencia, creo que una hoja de block en la comprensión de que había sido la combinación de la previa y el condicional.

Antes de la $P(\theta)$ es entendida como la creencia en lo que es el verdadero $\theta$ podría ser. El condicional $P(Data|\theta)$ es mejor pensamiento en frecuentista términos, es decir, tomar un modelo con esto $\theta$ y generar muchas muestras de ello, y solo en el conteo de las frecuencias para cada una de las muestras. Su combinación de $\sum_{\theta} {P(\theta)\times P(Data|\theta)}$ no siguen un proceso concreto con una bien definida $\theta$. Así que el problema es entender que.

Supongamos que, inicialmente, no tengo datos concretos, que yo sólo tenía una creencia acerca de lo que el fondo de generación de proceso, es decir, un $P(\theta)$. También, para cada proceso que se podría decir de lo que las frecuencias $P(Data|\theta)$ sería. Porque yo no estaba muy seguro sobre el proceso, el $P(Data)$ era una creencia: Con todo mi incertidumbre acerca de la $\theta$, me gustaría promedio de espera de los datos, si que he recopilado, para tener una distribución como esta $P(Data)$.

Pero ahora, realmente me recolectar algunas muestras, llamar a este conjunto de $S$, y tengo que calcular las frecuencias de las muestras. Lo que tengo ahora es $P(Data|S)$.

Pero yo podría escribir: $P(Data|S)=\sum_{\theta} P(Data|\theta)P(\theta|S)$. Pensando de esta manera, mi conteo probabilidad de $P(Data|S)$ ha llegado por primera cambiar mi creencia acerca de $\theta$$P(\theta|S)$, que se convierte en más de pinchos hacia un determinado $\theta$, y la distribución de los datos, ahora se parece más a $P(Data|\theta)$ que $\theta$. Por lo tanto, era el quid de la diferencia entre el$P(Data)$$P(Data|S)$?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X