Aunque tengo una vaga intuición de que esto tiene sentido, estoy interesado en la demostración formal de que el antes de la distribución predictiva en la inferencia Bayesiana es igual a la integral sobre la $\theta$ del producto de la previa distribución $p(\theta)$ y la distribución de muestreo $p(y|\theta)$, tal que:
$$p(y) = \int_{\theta} p(\theta) p(y|\theta)\text{d}\theta.$$
Se podría decir que la integral hace que la distribución incondicional (es decir, se elimina la condicionalidad) mediante la integración de más de todos los parámetros posibles?
Si es así, hay más explicación formal?