19 votos

Estabilidad de la validación cruzada en modelos bayesianos

Estoy ajustando un HLM bayesiano en JAGS utilizando k-fold cross-validation (k=5). Me gustaría saber si las estimaciones del parámetro $\beta$ son estables en todos los pliegues. ¿Cuál es la mejor manera de hacerlo?

Una idea es hallar las diferencias de las posteriores de $\beta$ y a ver si 0 está en el IC del 95% de la diferencia. En otras palabras, ¿está 0 en el intervalo del 95% de $\beta_{k=1}-\beta_{k=2}$ (y luego repetir para todos los pares de pliegues).

Otra idea consiste en tratar los posteriors de cada pliegue como cadenas MCMC diferentes, y en de Gelman $\hat{R}$ (Factor potencial de reducción de escala) a través de estas pseudocadenas.

¿Es preferible una de ellas? ¿Existen alternativas?

2voto

jws121295 Puntos 36

No sé si esto puede considerarse un comentario o una respuesta. Estoy poniendo aquí porque se siente como una respuesta.

En la validación cruzada k-fold, los datos se dividen en k grupos. Si está cubriendo incluso lo "básico", entonces está seleccionando de forma aleatoria y uniforme miembros para cada uno de los k grupos.

Cuando hablo de datos, pienso en cada fila como una muestra, y en cada columna como una dimensión. Estoy acostumbrado a utilizar diversos métodos para determinar la importancia de las variables y de las columnas.

¿Y si, como ejercicio de reflexión, te apartas del azar uniforme del "libro de texto" y determinas qué filas son importantes? Quizá informen a una sola variable a la vez, pero quizá informen a más. ¿Hay filas menos importantes que otras? Quizá muchos de los puntos sean informativos, quizá pocos.

Conociendo la importancia de la variable, tal vez podría agruparlas por importancia. Tal vez podrías hacer una única papelera con las muestras más importantes. Esto podría definir el tamaño de su "k". De este modo, estaría determinando el cubo k "más informativo" y comparándolo con otros, y con el cubo menos informativo.

Esto podría darle una idea de la variación máxima de los parámetros de su modelo. Es sólo una forma.

Una segunda forma de dividir las k-ésimas cubetas es por la magnitud y la dirección de la influencia. De este modo, puede colocar las muestras que influyen en un parámetro o parámetros en una dirección en un cubo y colocar las muestras que influyen en el mismo parámetro o parámetros en la dirección opuesta en un cubo diferente.

La variación de los parámetros de esta forma podría dar un barrido más amplio a las variables, basado no en la densidad de la información, sino en la raza de la información.

Mucha suerte.

0voto

Igal Tabachnik Puntos 15160

Puede que no sea una respuesta completa, pero si NO hay 0 en el IC del 95% para varias diferencias es bastante seguro decir que no son idénticas a un nivel de 0,05.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X