Esta pregunta surge a partir de mi confusión acerca de cómo decidir si un modelo logístico es lo suficientemente bueno. Tengo los modelos que utilizan el estado de los pares individuales-proyecto de dos años después de que se formó como una variable dependiente. El resultado es exitoso (1) o no (0). He variables independientes, medido en el momento de la formación de los pares. Mi objetivo es probar si una variable, que la hipótesis podría influir en el éxito de los pares tiene un efecto en la que el éxito, controlando por otras posibles influencias. En los modelos, la variable de interés es significativo.
Los modelos fueron estimados utilizando el glm()
de la función en R
. Para evaluar la calidad de los modelos, lo he hecho un par de cosas: glm()
le da la residual deviance
, AIC
y BIC
por defecto. Además, he calculado la tasa de error del modelo y traza la binned residuos.
- El modelo completo tiene un pequeño residual de la desviación, la AIC y BIC que los otros modelos que he calculado (y que se anidan en el modelo completo), lo que me lleva a pensar que este modelo es "mejor" que los demás.
- La tasa de errores del modelo es bastante baja, en mi humilde opinión (como en Gelman y Hill, 2007, pp 99):
error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)
, en torno al 20%.
Hasta ahora tan bueno. Pero cuando me parcela de la binned residual (de nuevo después de Gelman y de la Colina de asesoramiento), una gran parte de los contenedores que se encuentran fuera de la IC 95%:
La parcela que me lleva a pensar que hay algo absolutamente equivocado sobre el modelo. En caso de que me llevan a lanzar el modelo de distancia? Debo reconocer que el modelo es imperfecto, pero mantenerla e interpretar el efecto de la variable de interés? He jugado alrededor de la exclusión de variables a su vez, y también algún tipo de transformación, sin realmente mejorar la binned residuos de la parcela.
Editar:
- Por el momento, el modelo cuenta con una docena de predictores y 5 efectos de la interacción.
- Los pares son "relativamente" independientes el uno del otro en el sentido de que todos ellos están formados durante un corto período de tiempo (pero no stricly hablando, todos al mismo tiempo) y hay un montón de proyectos (13k) y una gran cantidad de personas (19k), por lo que una proporción justa de los proyectos sólo se unieron por una sola persona (hay alrededor de 20.000 pares).