El uso de una previa informativa implica, por supuesto, que se tiene información de la que se puede informar. Para un problema similar, en el que tenía datos de resultados binarios, resulta que tenía veinte años de datos de éxito/fracaso que llegaban hasta el período de tiempo de mis variables predictoras. Como parecía ser relativamente estable, utilicé el centro de localización de esas dos décadas de datos, pero aumenté radicalmente su varianza.
Mi tasa de fracaso, hasta que se dispuso de variables predictoras, fue de aproximadamente 1 entre 1000. Por supuesto, tenía cientos de miles de observaciones, así que podía hacer una muy buena estimación del centro con una varianza muy ajustada, pero eso podría haber abrumado a los predictores si estaban muy alejados de la media del grupo.
Por lo tanto, puse una distribución Beta(1,999) como mi densidad previa informativa para la tasa de fracaso. Usted está haciendo algo ligeramente diferente, pero si tiene datos externos sobre la incidencia de los diferentes valores de la variable dependiente, o si quiere utilizar una previa empírica, entonces podría estimar la tasa añadiendo significativamente a la varianza. No se puede utilizar una distribución beta debido al uso de la regresión logística
También tendrá que reescalar las probabilidades en logaritmos de probabilidades y hacer ingeniería inversa de la prioridad. Así que, como en mi ejemplo con un caso binario, $$\log(.001)-\log(.999)=log(p)-log(1-p)=m\bar{x}+b=-2.9996$$ si se tratan los distintos predictores como independientes. Ahora hay un centro de localización. $b$ debe ser probablemente algún valor grande y difuso como $\mathcal{N}(0,1000^2)$ y $m$ necesidades ajustadas para $\bar{x}$ . Usted quiere que el anterior en $m$ para que sea informativa en cuanto a los rangos que usted consideraría sorprendentes, pero lo suficientemente difusa como para que la previa no controle el resultado.
Sólo una nota, para mi propio proyecto, no utilicé la regresión logística. Había suficientes violaciones de los supuestos que elegí para utilizar un truco matemático y resolverlo de una manera diferente a la regresión logística. Mi propio problema tenía una estructura natural conveniente que me permitió eludir su dolor de cabeza.
Evite los antecedentes inadecuados, pueden no integrarse a la unidad.
En cuanto a los puntos de corte, tiene un ordenamiento de las variables, donde $p_1$ por ciento están en la categoría uno, $p_2$ por ciento están en la categoría 2 y así sucesivamente. El punto de corte debe centrarse en el punto en el que se encuentran esas probabilidades logarítmicas en conjunto. Lo mismo que arriba, pero con más parámetros. Un punto de corte $c_2$ se encuentra en el límite entre la categoría 2 y la categoría 3 y se encuentra en el punto $p_1+p_2$ .
0 votos
Tal vez haya visto esto, pero podría ayudar a los posibles contestatarios: la página del libro de Gelman que introduce el logit ordenado. books.google.com/
0 votos
Ese libro utiliza la restricción $c_1=0$ pero, por lo que veo, STAN no lo hace. ¿Estoy en lo cierto?
0 votos
A veces me resulta más fácil generar conjuntos de datos que reflejen mis suposiciones, ejecutar el modelo con los datos generados, observar las distribuciones posteriores y eso me ayudará a formular las priores.
0 votos
Este post de Michael Betancourt cubre los posibles priores para la regresión ordinal usando Stan en detalle: betanalpha.github.io/assets/case_studies/