En la regresión lineal frecuencial, he visto dos enfoques que conducen a modelos básicamente similares. Tenemos $W,y,X,\epsilon$ relacionado como $y=W^TX+\epsilon$ , donde $y$ es el dependiente al azar variable, y $X$ se supone que es una constante ( primera aproximación ), o al azar ( segundo ) variable independiente. $\epsilon$ se supone que es el error gaussiano. Ahora digamos que asumimos $X$ como una variable aleatoria, de la cual, no conocemos la distribución de probabilidad. (Al menos las fuentes que he leído no hablan de su distribución)
También escribimos los datos como $\{(x_i,y_i)_n\}$ y esta notación es ampliamente utilizada: $$p(D)=p(y|X)\tag{i}$$ donde " $D$ " se suele llamar a los Datos. ( (1)¿Es una variable aleatoria? )
Pues bien, obtenemos (suponiendo parámetros de $\epsilon$ sea constante), $$p(y|W,X)=N(W^TX,\sigma_\epsilon^2)$$ y calcular el MLE.
Pasando al semi bayesiano, conocemos una distribución a priori de $W$ . Ahora deseamos conocer la posterior, dados los datos D. Es decir, $$p(W|D)=_{\text{Def of Conditional Probability}} \frac{p(W,D)}{p(D)}=\frac{p(D|W)p(W)}{p(y|X)}$$ (2)Ahora, ¿cómo calculamos $p(D|W)$ ? (Todo lo que se nos da es $(i)$ , sobre $p(D)$ )
Ahora llegando al bayesiano puro, básicamente queremos $$p(y|X,D) =\frac{p(y,X,D)}{p(x,D)}$$ Me dijeron en la escuela que esto equivale a $$\int_Wp(y|W,X)p(W|D)dW$$ (3)¿Cómo se llega a esto?
Por favor, utiliza sólo cosas básicas como definiciones para derivar esto. He encontrado tantas interpretaciones y formas de estas, que literalmente no tengo ni idea de cuál es la forma correcta de verlo. Así que por favor proporcione respuestas a las preguntas en negrita.
Además, si hay algún error en el razonamiento anterior, por favor indíquelo.