¿cómo puedo saber cuál es la probabilidad relativa de que el proceso de generación de ser una gaussiana MM con esta particular combinación de parámetros en lugar de decir que una red neuronal con el parámetro de configuración.
Su $\theta$ es el conjunto de parámetros en el modelo. Así que para un modelo de mezcla de Gaussianas son los medios, covarianzas, y de los parámetros de mezcla. En una Red Neuronal son los pesos y sesgos. Estos son totalmente diferentes conjuntos de cantidades, así que no hay razón para pensar que el $P(\theta)$ en cualquiera de los casos va a estar relacionados, ya sea a priori o después de ver a $D$.
$P(D \mid \theta)$ es la parte de la fórmula que se llevará a cabo como un modelo de mezcla o de una red, o lo que sea. Pero usted tiene que decidir, de lo contrario su previo es para el mal las cantidades, que no tiene ningún sentido.
Y es más, es intuitivo pensar de un proceso de generación de los datos, cuyos parámetros estamos adivinando. Pero en cambio aquí tenemos varios procesos de generación de los datos en tándem, es decir, un sentido de un verdadero modelo está perdido.
Usted ya pensar de los datos como potencialmente generados por diferentes valores de $\theta$ antes de cualquier Bayesiano surgen las preguntas. Después de todo, la probabilidad indica la probabilidad de los datos han sido generados bajo diferentes conjuntos de valores. Pero su 'tándem' idea sugiere que creo que todos lo hacemos 'todos a la vez" en el caso Bayesiano, por lo que no hay sentido de 'verdadero modelo". Eso es un error. Tal vez piense en ello como esto:
Llamada la "verdadera parámetros del modelo' $\theta_0$. Bayesians y que todo el mundo está de acuerdo en que estas son las cosas que queremos saber acerca de. A continuación, $D$ es en realidad una muestra de $P(D \mid \theta_0)$. No conozco la $\theta_0$ es.
Nuestra $P(D \mid \theta)$ donde $\theta$ es cualquier valor de los parámetros, sólo especifica el mecanismo por el cual la $D$ se supone que para ser generado si supiéramos lo que los parámetros fueron - un "modelo directo" si te gusta. A menudo es directamente la física, creo que de la $\theta$ como la configuración de un panel de control. Bayesiano métodos comienzan con $P(\theta)$ - sus opiniones o conocimiento acerca de lo $\theta_0$ podría ser antes de ver $D$, y, a continuación, en la condición de $D$ conseguir $P(\theta \mid D)$ - su nuevo opiniones o conocimiento acerca de lo $\theta_0$ es después de ver $D$.
La suma presente de arriba es realmente útil sobre todo como una normalización de la constante en el camino para llegar a $P(\theta \mid D)$ que realmente es útil. Es nuestra actualización de las creencias acerca de la $\theta_0$. Tiene algunas otras funciones, como 'evidencia', pero para el propósito de su pregunta estos no son pertinentes.