Estoy en la estimación de una pareja de nivel 3 modelos logit con Stata 12 y estoy ante un dilema acerca de cómo (o si) que debo especificar mi tercer nivel.
Los datos son los casos de la corte anidada dentro de jueces anidada dentro de los circuitos. El único efecto aleatorio es el intercepto. Hay más de un millón de casos, alrededor de 500 jueces, y 20 circuitos. El problema con el 3er nivel es que algunos jueces operan en varios circuitos (varios miembros). Esto crea un dilema y aquí es donde me gustaría escuchar los comentarios de los que saben más.
Puedo especificar el modelo con k variables independientes (y varias interacciones) en stata sintaxis como:
xtmelogit y x1 x2 x3##x4 xk ||_all: R.circuit || judge: , intp(1)
El intp(1) establece los puntos de integración a 1 que los resultados en el Laplaciano aproximación que he leído, los resultados en más o menos precisa de los coeficientes, pero potencialmente grave sesgo en los componentes de varianza. He tenido un modelo como este funcionando durante una semana y ahora es en la segunda iteración, así que supongo que si converge va a tomar al menos otra semana. Sospecho que SI yo tuviera que especificar el estándar de 7 puntos de integración con el modelo de meses para completar. Y olvidar la comprobación de los resultados de sensibilidad a los puntos de integración.
En el otherhand, puedo estimar el modelo de 2 niveles, la sintaxis es la siguiente:
xtmelogit y x1 x2 x3##x4 xk ib11.circuit || judge: , intp(7)
Este modelo incluye los circuitos como dummies (circuito de 11 como referencia) anidada dentro de los jueces. Este es el modelo que he estado usando. El problema es, los niveles son, obviamente, mal especificada. La ventaja es que tengo más confianza en los coeficientes y los componentes de varianza porque puedo utilizar un número razonable de puntos de integración y he comprobado que los resultados no son sensibles al número de puntos de integración utilizado. Pero me pregunto qué impacto el nivel de misspecification está teniendo. Ciertamente atornillar con los componentes de varianza, pero el modelo alternativo no es probable que precisa de componentes de varianza de todos modos. La preocupación real para mí es si el azar interceptar y los coeficientes de sesgo en algunos imprevistos.
¿Alguien tiene alguna entrada o un sabio consejo?
Editado para añadir: he pensado más acerca de este y el centro de la cuestión es simplemente que quiero controlar por el efecto de circuito. Ha habido otros trabajos publicados con este tipo de datos donde los casos que están anidados dentro de los circuitos (2 niveles) y que han demostrado un efecto importante de circuito en el resultado. En mi modelo con el circuito de los maniquíes han sustancial de los odds ratios con algunos tan alta como 7, 8, o 9 (como resulta que el 11 de circuito es el más flexible). No quiero ignorar este efecto, sino más bien de control como una molestia variable, puedo vivir con eso está mal-se estima que mientras que no sesgo mi intercepta y mi coeficientes. Supongo que lo que estoy pidiendo, entonces, es lo que es el menos contundente manera de hacer esto ya que la forma técnicamente correcta que parece fuera de la ventana?