Hola Tengo dos problemas que suenan como candidatos naturales para los modelos multinivel/mixtos, que nunca he utilizado. El más sencillo, y que espero probar como introducción, es el siguiente: Los datos parecen muchas filas de la forma
x y innergroup outergroup
donde x es una covariable numérica sobre la que quiero hacer la regresión de y (otra variable numérica), cada y pertenece a un grupo interno y cada grupo interno está anidado en un grupo externo (es decir, todos los y de un grupo interno determinado pertenecen al mismo grupo externo). Lamentablemente, el grupo interno tiene muchos niveles (muchos miles) y cada nivel tiene relativamente pocas observaciones de y, por lo que pensé que este tipo de modelo podría ser apropiado. Mis preguntas son las siguientes
-
¿Cómo se escribe este tipo de fórmula multinivel?
-
Una vez lmer se ajusta al modelo, ¿cómo se hace una predicción a partir de él? He ajustado algunos ejemplos de juguete más sencillos, pero no he encontrado una función predict(). La mayoría de la gente parece más interesada en la inferencia que en la predicción con este tipo de técnica. Tengo varios millones de filas, por lo que los cálculos podrían ser un problema, pero siempre puedo reducirlos según convenga.
No necesitaré hacer lo segundo hasta dentro de un tiempo, pero podría empezar a pensar en ello y a jugar con ello. Tengo datos similares a los anteriores, pero sin x, e y es ahora una variable binomial de la forma $(n,n-k)$ . y también presenta mucha sobredispersión, incluso dentro de los grupos internos. La mayoría de los $n$ no son más de 2 ó 3 (o menos), por lo que para obtener estimaciones de los porcentajes de éxito de cada $y_i$ He estado usando el estimador de contracción beta-binomial $(\alpha+k_i)/(\alpha+\beta+n_i)$ donde $\alpha$ y $\beta$ se estiman mediante MLE para cada grupo interno por separado. Esto ha sido algo adecuado, pero la escasez de datos sigue siendo un problema, por lo que me gustaría utilizar todos los datos disponibles. Desde una perspectiva, este problema es más fácil ya que no hay covariables, pero desde la otra la naturaleza binomial lo hace más difícil. ¿Alguien tiene alguna orientación de alto (¡o bajo!) nivel?