11 votos

Selección del modelo bayesiano e intervalo creíble

Tengo un conjunto de datos con tres variables, donde todas las variables son quantitatives. Vamos a llamar $y$, $x_1$ y $x_2$. Estoy ajusta un modelo de regresión en una perspectiva Bayesiana a través de la MCMC con rjags

He hecho un análisis exploratorio y el diagrama de dispersión de $y\times x_2$ sugieren que un término cuadrático debe ser utilizado. Luego he montado dos modelos

(1) $y=\beta_0+\beta_1*x_1+\beta_2*x_2$

(2) $y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2$

En el modelo 1 el tamaño del efecto de cada parámetro no es pequeña, y la credibilidad de 95% intervalo no contiene el valor de $0$.

En el modelo 2 el tamaño del efecto de los parámetros de $\beta_3$ $\beta_4$ son pequeñas y cada uno de los intervalos de credibilidad para todos los parámetros contiene $0$.

El hecho de que un intervalo creíble contiene $0$ es suficiente para decir que el parámetro no es significativo?

Después de haber ajustado el siguiente modelo

(3)$y=\beta_0+\beta_1*x_1+\beta_2*x_2+\beta_3*x^2_2$

El tamaño del efecto de cada parámetro no es pequeño, pero con excepción de $\beta_1$ todos los intervalos de credibilidad contiene $0$.

Cual es la manera correcta de hacer selección de variables en la estadística Bayesiana?

EDIT: puedo usar el Lazo en cualquier modelo de regresión, como el Beta modelo? Estoy usando un modelo con la variable de dispersión donde $$log(\sigma)=-\pmb{\delta}X$$ donde $\pmb{\delta}$ es un vector. Debo decir antes de Laplace en $\pmb{\delta}$?

EDIT2: he montado dos modelos, uno con Gaussiano priori para $\beta_j$, $\delta_j$ y uno con Laplace(doble exponencial).

El cálculo estimativo para el modelo de Gauss son

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

El cálculo estimativo para el Lazo del modelo son

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

El cálculo estimativo para $\delta_2$ $\delta_4$ reducido mucho en Lazo modelo, significa que debo eliminar este las variables del modelo?

EDIT3: El modelo con doble exponencial antes (el Lazo) gaves mí más grande de la Desviación, BIC y DIC valores que el modelo Gaussiano con los priores y yo me pongo una pequeña valores después de la eliminación de la dispersión coeficiente de $\delta_2$ en el modelo de Gauss.

11voto

Björn Puntos 457

Es bien sabido que la construcción de un modelo basado en lo que es importante (o algún otro criterio como el AIC, ya sea creíble intervalo contiene 0 etc.) es bastante problemático, especialmente si usted, a continuación, hacer inferencia como si no hubiera hecho modelo edificio. Haciendo un análisis Bayesiano no cambia (ver también https://stats.stackexchange.com/a/201931/86652). I. e. usted no debe hacer la selección de variables, pero en lugar del modelo promediado (o algo que se podría obtener algunas cero los coeficientes, sino que refleja todo el proceso de modelado, tales como el LAZO o elástico de la red).

Modelo bayesiano elección es más típicamente considerados como Bayesian model averaging. Tiene diferentes modelos, cada uno con un diferente antes de probabilidad. Si la parte posterior del modelo de probabilidad de que el modelo se convierte en lo suficientemente baja, que son, esencialmente, descartando totalmente el modelo. De igual antes de pesos para cada modelo y plana de los priores, modelo de promedio con pesos proporcionales a $\exp(-\text{BIC}/2)$ para cada modelo se aproxima a este.

Alternativamente, usted puede expresar el modelo de promedio como antes que es una mezcla entre un punto de masa (el peso de la masa del punto es la probabilidad anterior de que el efecto es exactamente cero = el efecto no es en el modelo) y una distribución continua (por ejemplo, el pico-y-placa priores). MCMC de muestreo puede ser muy difícil para tal antes.

Carvalho et al. motivar la herradura antes de la contracción por lo que sugiere que funciona como una continua aproximación a un pico-y-placa antes. También es un caso de incrustar el problema en un modelo jerárquico, donde en cierta medida el tamaño y la presencia de efectos sobre algunas variables relajar la prueba necesaria para otros un poco (a través de la global de la contracción de parámetros, esto es un poco como el falso descubrimiento de control de la frecuencia) y por otro lado permitir que los efectos individuales a pararse sobre sus propios si la evidencia es bastante clara. No es conveniente la implementación de la disposición de los modificadores de la respuesta biológica paquete de R que se basa en el Stan/rstan. Hay un número de otras similares de los priores, tales como la herradura+ antes y todo el tema es un área de investigación en curso.

2voto

Jyqft Puntos 21

Hay un número de métodos formales para la selección de variables Bayesiano. Un poco anticuado revisión de Bayesiana métodos de selección de variables se presenta en:

Una revisión de variables Bayesiano métodos de selección: qué, cómo y que

Una más reciente revisión, la que también incluye una comparación de los diferentes métodos y el rendimiento de R paquetes donde se ejecutan es:

Métodos y Herramientas para la Selección de Variables Bayesiano y el Modelo de Promedio en Univariante de Regresión Lineal

Esta referencia es especialmente útil en las que los puntos específicos R paquetes en donde usted sólo tiene que enchufar en la respuesta y la covariable valores (y en algunos casos la hyperparameter valores) con el fin de ejecutar la selección de variables.

Otro, rápido y sucio y no se recomienda, a modo de llevar a cabo "Bayesiano" selección de variables es el uso de la selección paso a paso (adelante, atrás, ambos) el uso de BIC y el comando R stepAIC(), que puede ser ajustado para realizar la selección en términos de BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

Otra forma rápida y sucia de las pruebas de $\beta_4=0$ es mediante el uso de la Savage-Dickey relación de densidad y la posterior simulación que ya tengo:

https://arxiv.org/pdf/0910.1452.pdf

1voto

daniel santiago Puntos 11

La idea de la estadística Bayesiana es diferente de un enfoque frecuentista. De esta manera creo que para utilizar los términos de significación no es exacta. Supongo que es al lector a decidir si los resultados (de distribución) que usted recibe de su modelo para su $β$ 's son para él fiable o confiable. Depende siempre de la misma distribución. Cómo sesgada y amplia es y cómo gran parte de la zona está por debajo de cero?

Usted también puede encontrar un buen conferencia sobre el tema aquí en 41:55 :

https://vimeo.com/14553953

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X