10 votos

Elección de priores informativos para la regresión logística ordenada bayesiana

¿Cuáles son algunas pautas para elegir priores débilmente informativos en una regresión ordinal bayesiana? Considere el siguiente modelo del manual de Stan (versión 2.17.0, sección 9.8, página 138):

data {
  int<lower=2> K;
  int<lower=0> N;
  int<lower=1> D;
  int<lower=1,upper=K> y[N];
  row_vector[D] x[N];
}
parameters {
  vector[D] beta;
  ordered[K-1] c;
}
model {
  for (n in 1:N)
    y[n] ~ ordered_logistic(x[n] * beta, c);
}

Especificamos la probabilidad como ordered_logistic , pero se dejan los priores planos impropios en todos los beta y c .

Puedo razonar cómo especificar más antecedentes informativos sobre beta porque es simplemente cuánto cambian las probabilidades logarítmicas por cada incremento unitario de cada predictor en x . Estos, por ejemplo, podrían ser simplemente beta ~ normal(0, 3) o algo así, dependiendo de cómo se escalen los predictores.

Sin embargo, ¿cómo se especifican los puntos de corte a priori? c ? Hay que pedirlos, pero no sé cómo especificarlo. Además, no estoy seguro de cómo pensar en su distribución. ¿Alguien sabe de guías para priores informativos para la regresión ordinal?

La comunidad Stan toca muy brevemente el tema en su GitHub pero no es una sección totalmente realizada o explicada.

0 votos

Tal vez haya visto esto, pero podría ayudar a los posibles contestatarios: la página del libro de Gelman que introduce el logit ordenado. books.google.com/

0 votos

Ese libro utiliza la restricción $c_1=0$ pero, por lo que veo, STAN no lo hace. ¿Estoy en lo cierto?

0 votos

A veces me resulta más fácil generar conjuntos de datos que reflejen mis suposiciones, ejecutar el modelo con los datos generados, observar las distribuciones posteriores y eso me ayudará a formular las priores.

3voto

Jay Querido Puntos 589

El uso de una previa informativa implica, por supuesto, que se tiene información de la que se puede informar. Para un problema similar, en el que tenía datos de resultados binarios, resulta que tenía veinte años de datos de éxito/fracaso que llegaban hasta el período de tiempo de mis variables predictoras. Como parecía ser relativamente estable, utilicé el centro de localización de esas dos décadas de datos, pero aumenté radicalmente su varianza.

Mi tasa de fracaso, hasta que se dispuso de variables predictoras, fue de aproximadamente 1 entre 1000. Por supuesto, tenía cientos de miles de observaciones, así que podía hacer una muy buena estimación del centro con una varianza muy ajustada, pero eso podría haber abrumado a los predictores si estaban muy alejados de la media del grupo.

Por lo tanto, puse una distribución Beta(1,999) como mi densidad previa informativa para la tasa de fracaso. Usted está haciendo algo ligeramente diferente, pero si tiene datos externos sobre la incidencia de los diferentes valores de la variable dependiente, o si quiere utilizar una previa empírica, entonces podría estimar la tasa añadiendo significativamente a la varianza. No se puede utilizar una distribución beta debido al uso de la regresión logística

También tendrá que reescalar las probabilidades en logaritmos de probabilidades y hacer ingeniería inversa de la prioridad. Así que, como en mi ejemplo con un caso binario, $$\log(.001)-\log(.999)=log(p)-log(1-p)=m\bar{x}+b=-2.9996$$ si se tratan los distintos predictores como independientes. Ahora hay un centro de localización. $b$ debe ser probablemente algún valor grande y difuso como $\mathcal{N}(0,1000^2)$ y $m$ necesidades ajustadas para $\bar{x}$ . Usted quiere que el anterior en $m$ para que sea informativa en cuanto a los rangos que usted consideraría sorprendentes, pero lo suficientemente difusa como para que la previa no controle el resultado.

Sólo una nota, para mi propio proyecto, no utilicé la regresión logística. Había suficientes violaciones de los supuestos que elegí para utilizar un truco matemático y resolverlo de una manera diferente a la regresión logística. Mi propio problema tenía una estructura natural conveniente que me permitió eludir su dolor de cabeza.

Evite los antecedentes inadecuados, pueden no integrarse a la unidad.

En cuanto a los puntos de corte, tiene un ordenamiento de las variables, donde $p_1$ por ciento están en la categoría uno, $p_2$ por ciento están en la categoría 2 y así sucesivamente. El punto de corte debe centrarse en el punto en el que se encuentran esas probabilidades logarítmicas en conjunto. Lo mismo que arriba, pero con más parámetros. Un punto de corte $c_2$ se encuentra en el límite entre la categoría 2 y la categoría 3 y se encuentra en el punto $p_1+p_2$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X