Processing math: 100%

4 votos

Muestreo de regresión bayesiana predictiva posterior

Tengo el siguiente problema: quiero obtener una predicción de distribución posterior para el objetivo de la regresión logística de la variable y. Es decir, dada una combinación de variables explicativas X, quiero obtener la distribución condicional P(y|X) a partir del modelo.

Estoy correctamente suponiendo que necesito para tomar una muestra de un modelo Bayesiano a través de la MCMC correctamente aproximado de la capacidad de predicción posterior? O hay alguna forma más fácil? ¿Cuál sería el mejor enfoque para un problema?

También, dado que efectivamente tienen miles de dummy variables explicativas, es incluso posible para manejar un gran número de parámetro a través de métodos de muestreo?

Realmente agradecería cualquier ayuda aquí.

5voto

Matt Puntos 1371

Estoy correctamente suponiendo que necesito para tomar una muestra de un modelo Bayesiano a través de la MCMC correctamente aproximado de la capacidad de predicción posterior? O hay alguna forma más fácil? ¿Cuál sería el mejor enfoque para un problema?

Su etiqueta dice "regresión logística', así que voy a suponer que estás tratando de hacer Bayesiano logístico O de regresión probit a través de algunos datos de aumento de esquema. Sin embargo, lo que yo voy a decir que deben aplicarse a cualquier modelo donde conjugacy no es una opción y que se ven obligados a recurrir a la MCMC.

La única manera correcta (como usted dice) el estudio de la posterior distribución predictiva es tomar en cuenta la incertidumbre en los coeficientes de regresión y otros parámetros. La única manera de hacer esto después de usar MCMC para obtener las distribuciones posteriores de los parámetros es el uso de su MCMC muestras. Cualquier otro enfoque sería un (potencialmente bruto) descripción errónea de la incertidumbre. Por ejemplo, tomando la parte posterior de los medios sobre los coeficientes de regresión y otros parámetros y, a continuación, utilizar su X valores daría una distribución de potencial yX de los valores, pero esta distribución no contienen información acerca de nuestra incertidumbre en los coeficientes de regresión y otros parámetros. Es importante que nuestros posterior-la predicción de la varianza ser inflado por nuestra incertidumbre en los parámetros. Esto se ve en la integral π(yX)=π(yθ,X)π(θ)dθ. La incertidumbre en θ causa de la relativa colas de π(θ) a valorarse más de 0, y por lo tanto la relación de las colas de π(yX) se valora más que la de 0. Utilizando su MCMC muestras para los parámetros que se tomen en cuenta esta incertidumbre y aproximación sería la parte posterior-predictivo con similar Monte Carlo de error.

También, dado que efectivamente tienen miles de dummy variables explicativas, es incluso posible para manejar un gran número de parámetro a través de métodos de muestreo?

Supongo que por miles usted decir en miles de millones, en cuyo caso me esperaría cualquier ordenador moderno para manejar una escasa vector producto interior eficiente y rápidamente. Pero tal vez este no es el caso para usted, o usted acaba de ver esto como innecesariamente ineficiente.

Un enfoque para lidiar con esta situación en un sentido estadístico es llevar a cabo la selección de variables en el modelo. La selección de las variables más importantes (potencialmente dramáticamente) reducir el costo de calcular la parte posterior de predicción en cada paso. Selección del modelo de regresión, es conceptualmente sencillo en el paradigma Bayesiano, pero no es necesariamente rápido para describir o implementar. Véase la sección 9.3 de este libro, pero probablemente cualquier libro o esquema de modelo Bayesiano de selección para la regresión sería suficiente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X