14 votos

¿Es más sencillo, más práctico o más conveniente el modelado multinivel con métodos bayesianos o frecuentistas?

En este página wiki de la comunidad un comentario dos veces votado por @probabilityislogic afirmaba que "El modelado multinivel es definitivamente más fácil para el bayesiano, especialmente conceptualmente". ¿Es eso cierto, y si es así/no por qué?

12voto

bessman Puntos 2514

Estoy de acuerdo con Matthew. Me gustaría añadir dos observaciones.

Hay varias formas de escribir un modelo multinivel, pero las principales alternativas son las formas nivelada y combinada. Como ya sabe, puede escribir un modelo multinivel simple como: $$\begin{align}\text{Level-1}:\, y_i=&\beta_{0j[i]}+\beta_{1j[i]}x_i+\varepsilon_i \\ \text{Level-2}:\qquad &\beta_{0j}=\gamma^0_0+\gamma^0_1w_j+\eta^0_j \\ &\beta_{1j}=\gamma^1_0+\gamma^1_1w_j+\eta^1_j \end{align}$$ o como: $$y_i=\gamma^0_0+\gamma^0_1w_{j[i]}+\gamma^1_0 x_n+\gamma^1_1 w_{j[i]}x_i +\eta^0_{j[i]}+\eta^1_jx_i+\varepsilon_i$$ En la primera forma, se modelan todos los coeficientes de la misma manera y escribir un modelo bayesiano en BUGS, JAGS o Stan es (casi) sencillo, y se puede añadir fácilmente un tercer nivel. Cuando se utiliza software de efectos mixtos (PROC MIXED, lmer, etc.) hay que recordar que siempre que se pretenda predecir una variación en una pendiente mediante predictores de segundo nivel, hay que incluir términos de interacción entre niveles (interacciones entre predictores de nivel 1 y de nivel 2) en la parte de efectos fijos de la fórmula, y definir la parte de efectos aleatorios sólo es fácil en casos triviales. Por eso alguien dice que existe una fuerte relación formal entre el modelado multinivel y el análisis bayesiano (véase Kreft y De Leeuw, Introducción a los modelos multinivel , Sage, 1998, §1.4.7).

Sin embargo, suelo utilizar herramientas no bayesianas para echar un primer vistazo y comparar resultados. Además, yo no diría que utilizar PROC MIXED o lmer sea "erróneo" o "anticuado"

El verdadero problema es que no se pueden utilizar métodos frecuentistas cuando el número de unidades de nivel 2 es pequeño .

Así lo han destacado varios autores, por ejemplo Gelman y Hill, Análisis de datos mediante modelos de regresión y multinivel/jerárquicos Cambridge University Press, 2007, §16.1 ("Por qué deberías aprender BUGS": "Cuando el número de grupos es pequeño o el modelo multinivel es complicado [...] puede que no haya suficiente información para estimar con precisión los parámetros de varianza" por métodos frecuentistas) o por Raudenbush y Bryk, Modelos lineales jerárquicos Sage, 2002, Cap. 13 ("El número de unidades de nivel superior puede ser pequeño y los datos pueden estar desequilibrados. En estos casos, convertirse en un método completamente bayesiano presenta claras ventajas").

Un reciente papel de Mark L. Bryan y Stephen P. Jenkins ( Análisis de regresión de los efectos país utilizando datos multinivel: un cuento con moraleja Institute for Social and Economic Research, WP2013-14) presenta un análisis de simulación de Monte-Carlo que sugiere que, para obtener estimaciones fiables, los usuarios necesitan al menos 25 grupos para los modelos lineales y al menos 30 grupos para los modelos logit. Una de sus recomendaciones es "ir más allá de la estadística clásica (frecuentista) y hacer un mayor uso de los métodos bayesianos de estimación e inferencia, ya que parecen funcionar mejor cuando hay pocos países". países".

8voto

Los modelos multinivel bayesianos son conceptualmente agradables porque la estructura jerárquica de los parámetros está incorporada en la especificación a priori. Consideremos la puntuación del test $y_{ij}$ para estudiantes $i$ que asiste a la escuela $j$ . Queremos conocer los parámetros de puntuación de los exámenes específicos de cada centro escolar $\theta_j$ por lo que, dado que queremos utilizar métodos bayesianos, estableceremos una distribución a priori para cada $\theta_j$ . Sin embargo, este va a ser un modelo multinivel, por lo que queremos/esperamos parámetros específicos de la escuela $\{\theta_j\}$ ser similares y/o querer compartir información entre centros escolares. Para modelizar esto, asignamos la misma prioridad a cada parámetro de la escuela y luego ponemos una prioridad en este hiperparámetro. Así se obtiene $$ y_{ij} \mid \theta_j \sim \pi_1(\theta_j) \text{ for $ i \in \text{school}_j $} \\ \theta_j \mid \phi \sim \pi_2(\phi) \\ \phi \sim \pi_3(), $$

donde $\{\pi_1, \pi_2, \pi_3 \}$ son las distribuciones pertinentes. En la posterior para esta especificación a priori y la verosimilitud de los datos, el parámetro global $\phi$ será informado por cada $\theta_j$ que se basan en las puntuaciones de cada centro. Así pues, $\phi$ nos da una buena distribución general para estudiar. Pero $\theta_j$ también se basa en $\phi$ a través del prior, por lo que estamos compartiendo información entre las escuelas para informarnos mejor en los casos en los que hay pocos datos. Todo esto se hace a través de la conexión a priori-posterior, por lo que es muy natural en el paradigma bayesiano.

Además, no hay límite en la profundidad de su especificación previa. Si las escuelas están dentro de distritos que están dentro de provincias que están dentro de países, en teoría se podrían añadir tres niveles más a esta especificación previa. Cada nuevo nivel del modelo corresponde a otra especificación previa. En este sentido, los modelos multinivel resultan muy cómodos en los análisis bayesianos.

En términos de facilidad computacional, si se eligen a priori conjugados, es posible elaborar este modelo multinivel sin hacer nada más que el muestreo de Gibbs en la mayoría de los casos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X