2 votos

Confundido con los supuestos fundamentales de la regresión lineal frecuencial y bayesiana

En la regresión lineal frecuencial, he visto dos enfoques que conducen a modelos básicamente similares. Tenemos $W,y,X,\epsilon$ relacionado como $y=W^TX+\epsilon$ , donde $y$ es el dependiente al azar variable, y $X$ se supone que es una constante ( primera aproximación ), o al azar ( segundo ) variable independiente. $\epsilon$ se supone que es el error gaussiano. Ahora digamos que asumimos $X$ como una variable aleatoria, de la cual, no conocemos la distribución de probabilidad. (Al menos las fuentes que he leído no hablan de su distribución)
También escribimos los datos como $\{(x_i,y_i)_n\}$ y esta notación es ampliamente utilizada: $$p(D)=p(y|X)\tag{i}$$ donde " $D$ " se suele llamar a los Datos. ( (1)¿Es una variable aleatoria? )
Pues bien, obtenemos (suponiendo parámetros de $\epsilon$ sea constante), $$p(y|W,X)=N(W^TX,\sigma_\epsilon^2)$$ y calcular el MLE.
Pasando al semi bayesiano, conocemos una distribución a priori de $W$ . Ahora deseamos conocer la posterior, dados los datos D. Es decir, $$p(W|D)=_{\text{Def of Conditional Probability}} \frac{p(W,D)}{p(D)}=\frac{p(D|W)p(W)}{p(y|X)}$$ (2)Ahora, ¿cómo calculamos $p(D|W)$ ? (Todo lo que se nos da es $(i)$ , sobre $p(D)$ )

Ahora llegando al bayesiano puro, básicamente queremos $$p(y|X,D) =\frac{p(y,X,D)}{p(x,D)}$$ Me dijeron en la escuela que esto equivale a $$\int_Wp(y|W,X)p(W|D)dW$$ (3)¿Cómo se llega a esto?
Por favor, utiliza sólo cosas básicas como definiciones para derivar esto. He encontrado tantas interpretaciones y formas de estas, que literalmente no tengo ni idea de cuál es la forma correcta de verlo. Así que por favor proporcione respuestas a las preguntas en negrita.
Además, si hay algún error en el razonamiento anterior, por favor indíquelo.

5voto

PedroSebe Puntos 101

Es $D=\{(X_i,y_i)_n\}$ ¿una variable aleatoria?

Sí, ya que $y_i$ son variables aleatorias. ¿Son $X_i$ ¿variables aleatorias? Teóricamente sí, pero no siempre es útil considerarlas como tales. Dado que las ponderaciones de la regresión $W$ sólo afectan a la distribución de $y_i|X_i$ podemos decir:

$$p(W|D)=p(W|X,y)=\frac{p(W,x,y)}{\int\int p(W,x,y)dxdy}=\frac{p(W)p(X)p(y|X,w)}{\int p(W')p(X)p(y|X,W')dW'}=\frac{p(W)p(y|X,w)}{\int p(W')p(y|X,W')dW'}$$

Desde $p(X)$ se cancela en el cálculo de la posterior $p(W|D)$ podemos ignorar con seguridad la distribución de $X$ y considerarlo fijo en lugar de aleatorio.

Hay, por supuesto, algunas excepciones: cuando $X$ incluye algunos datos que faltan, considerando $X$ como aleatorio nos permite gestionar la imputación de una manera bastante principista: simplemente marginamos los valores perdidos al encontrar la posterior. Pero en ausencia de valores perdidos, no veo ninguna ventaja en considerar $X$ como aleatorio con alguna distribución $p(X)$ .

Además, tenga en cuenta que $p(D)=p(y|X)$ cuando $X$ es fijo. Cuando $X$ se considera aleatoria, $p(D)=p(y,X)=p(y|X)p(X)$ .

¿Cómo puedo calcular $p(D|W)$ ?

Ya que se asume un modelo normal, donde $p(y|X,W)$ es normal, simplemente lo has hecho: $$p(D|W)=\prod_{i=1}^n p(X_i,y_i|W)=\prod_{i=1}^n p(y_i|X_i,W)p(x_i)$$

Si toma $x$ como fijo, puede ignorar con seguridad $p(X)$ en la ecuación anterior.

Cómo llegar a $p(y^\star|X^\star,D)=\int p(y^\star|W,X^\star)p(W|D)dW$ ?

Esta ecuación se refiere a la distribución predictiva posterior: después de ajustar nuestro modelo a los datos $D$ ¿Cómo puedo predecir el valor $y^\star$ dado el vector de covariables $X^\star$ ? (He añadido $\star$ aquí para enfatizar que $X^\star$ y $y^\star$ se refieren a nuevas observaciones no incluidas en los datos originales $D$ ).

Entonces, la ecuación que escribiste sigue aplicando la ley de la probabilidad total . En detalle, tenemos:

$$p(y^\star|X^\star,D)=p(y^\star|X^\star,D)\cdot\int p(W|D)dW \\= \int p(y^\star|X^\star,D)\cdot p(W|D)dW=\int p(y^\star,W|X^\star,D)dW\\=\int p(y^\star|W, X^\star)p(W|D)dW$$

Puede que estas preguntas sobre la ley de la probabilidad total te resulten útiles:

Espero que le haya servido de ayuda.

0voto

Vitaly Puntos 53

Generalmente condicionamos en X. Creo que es mejor inicialmente condicionar en X, y luego podemos pensar en X como algo aleatorio. Así que esencialmente podemos ignorar x en todas las expresiones. Esto se hace a menudo porque X se fija en los experimentos. Sé que no tiene mucho sentido siempre, pero para entender los puntos anteriores no creo que lo necesitemos demasiado.

Voy a nombrar algunos de los términos, y es posible que luego puedas buscarlos.

Para calcular p(D|W) hacemos suposiciones sobre la distribución de D. Este término se llama probabilidad. Las suposiciones comunes incluyen, por ejemplo, la normalidad, la independencia de las observaciones y_i. Para la expresión con la integral, parece que están marginando W. (Ley de probabilidad total). Eso parece una distribución predictiva posterior. También están utilizando una relación de independencia: Y depende de los datos sólo a través de W. Por lo tanto p(y|d,w)=p(y|w).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X