La regla de marginación de la probabilidad para una distribución conjunta $P(X,\theta)$ es
$$ P(X) = \int P(X,\theta) d\theta$$
por otra parte, la regla del producto dice que $P(X,\theta) = P(X|\theta)P(\theta)$ . Combinando ambos
$$ P(X) = \int P(X|\theta)P(\theta) d\theta$$
En el caso de tener formación que, es necesario añadir condiciones a las distribuciones, pero nada cambia fundamentalmente. Por simplicidad notacional, llamemos a $X$ y $Y$ los datos de entrenamiento, $X'$ el punto en el que desea la predicción y $Y'$ el valor previsto. Tiene un parámetro $\theta$ . Usted busca $P(Y'|X',X,Y)$ . Para hallarlo, aplicamos la regla de marginación para el parámetro $\theta$ Así pues
$$ P(Y'|X',X,Y) = \int P(Y'|X',X,Y,\theta)P(\theta|X',X,Y) d\theta$$
El último paso es darse cuenta de que algunas de las condiciones que tienes son innecesarias. Para predecir $Y'$ tiene un modelo que sólo necesita $X'$ y $\theta$ pero no los datos de entrenamiento $X$ , $Y$ explícitamente (porque los datos de entrenamiento sólo se utilizan para encontrar $\theta$ ). Así, una vez que tenga $\theta$ , $P(Y'|X',X,Y,\theta) \to P(Y'|X',\theta)$ . Por otro lado, cómo se obtiene $\theta$ depende únicamente de los datos de entrenamiento y, obviamente, no de qué valor $X'$ querrá hacer una predicción futura, así $P(\theta|X',X,Y) \to P(\theta|X,Y)$ . La expresión final es la siguiente
$$ P(Y'|X',X,Y) = \int P(Y'|X',\theta)P(\theta|X,Y) d\theta$$
que es lo que buscabas salvo por el cambio en la notación.