Reflexiono sobre el debate en torno a esta pregunta y, en particular, el comentario de Frank Harrell de que la estimación de la varianza en un modelo reducido (es decir, uno en el que se han probado y rechazado varias variables explicativas) debe utilizar la fórmula de Ye Grados de libertad generalizados . El profesor Harrell señala que este valor se acercará mucho más a los grados de libertad residuales del modelo "completo" original (con todas las variables incluidas) que al de un modelo final (del que se han rechazado algunas variables).
Pregunta 1. Si quiero utilizar un enfoque apropiado para todos los resúmenes y estadísticas estándar de un modelo reducido (pero sin una implementación completa de los grados de libertad generalizados), ¿sería un enfoque razonable utilizar simplemente los grados de libertad residuales del modelo completo en mis estimaciones de varianza residual, etc.?
Pregunta 2. Si lo anterior es cierto y quiero hacerlo en R
¿podría ser tan sencillo como establecer
finalModel$df.residual <- fullModel$df.residual
en algún momento del ejercicio de ajuste del modelo, donde finalModel y fullModel se crearon con lm() o una función similar. Después, funciones como summary() y confint() parecen funcionar con el df.residual deseado, aunque devuelven un mensaje de error que indica que alguien ha manipulado claramente el objeto finalModel.
8 votos
Buena pregunta. Esto está relacionado con por qué Douglas Bates no incluye los p-valores en
lmer
salida. Vea su razonamiento aquí .2 votos
Más de una vez he visto utilizar el modelo completo df en una situación así. (El enfoque de Ye se utiliza mucho en diferentes situaciones; es un artículo que recomiendo a la gente con frecuencia). Sería bueno tener alguna función R genérica pero eficiente que muchas funciones pudieran aprovechar).