27 votos

Grados de libertad residuales adecuados tras eliminar términos de un modelo

Reflexiono sobre el debate en torno a esta pregunta y, en particular, el comentario de Frank Harrell de que la estimación de la varianza en un modelo reducido (es decir, uno en el que se han probado y rechazado varias variables explicativas) debe utilizar la fórmula de Ye Grados de libertad generalizados . El profesor Harrell señala que este valor se acercará mucho más a los grados de libertad residuales del modelo "completo" original (con todas las variables incluidas) que al de un modelo final (del que se han rechazado algunas variables).

Pregunta 1. Si quiero utilizar un enfoque apropiado para todos los resúmenes y estadísticas estándar de un modelo reducido (pero sin una implementación completa de los grados de libertad generalizados), ¿sería un enfoque razonable utilizar simplemente los grados de libertad residuales del modelo completo en mis estimaciones de varianza residual, etc.?

Pregunta 2. Si lo anterior es cierto y quiero hacerlo en R ¿podría ser tan sencillo como establecer

finalModel$df.residual <- fullModel$df.residual

en algún momento del ejercicio de ajuste del modelo, donde finalModel y fullModel se crearon con lm() o una función similar. Después, funciones como summary() y confint() parecen funcionar con el df.residual deseado, aunque devuelven un mensaje de error que indica que alguien ha manipulado claramente el objeto finalModel.

8 votos

Buena pregunta. Esto está relacionado con por qué Douglas Bates no incluye los p-valores en lmer salida. Vea su razonamiento aquí .

2 votos

Más de una vez he visto utilizar el modelo completo df en una situación así. (El enfoque de Ye se utiliza mucho en diferentes situaciones; es un artículo que recomiendo a la gente con frecuencia). Sería bueno tener alguna función R genérica pero eficiente que muchas funciones pudieran aprovechar).

3voto

egbutter Puntos 481

¿Está en desacuerdo con Respuesta de @FrankHarrel que la parsimonia conlleva algunas feas contrapartidas científicas?

Me encanta el enlace proporcionado en el comentario de @MikeWiezbicki al razonamiento de Doug Bates. Si alguien no está de acuerdo con tu análisis, puede hacerlo a su manera, y esta es una forma divertida de iniciar una discusión científica sobre tus suposiciones de base. Un valor p no convierte tu conclusión en una "verdad absoluta".

Si la decisión de incluir o no un parámetro en su modelo se reduce a "escoger pelos" sobre lo que son, para muestras científicamente significativas, discrepancias relativamente pequeñas en el df -- y usted no está tratando con $n<p$ problemas que justifican una inferencia más matizada, de todos modos - entonces usted tiene un parámetro tan cerca de cumplir con sus límites que debe ser transparente y hablar de ello de cualquier manera: sólo incluirlo, o analizar el modelo con y sin ella, pero definitivamente transparente discutir su decisión en el análisis final.

2 votos

+1 y ahora me inclino a estar de acuerdo en que, de hecho, mi pregunta original no es tan importante teniendo en cuenta estas otras cuestiones

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X