13 votos

La evaluación de modelos de regresión logística

Esta pregunta surge a partir de mi confusión acerca de cómo decidir si un modelo logístico es lo suficientemente bueno. Tengo los modelos que utilizan el estado de los pares individuales-proyecto de dos años después de que se formó como una variable dependiente. El resultado es exitoso (1) o no (0). He variables independientes, medido en el momento de la formación de los pares. Mi objetivo es probar si una variable, que la hipótesis podría influir en el éxito de los pares tiene un efecto en la que el éxito, controlando por otras posibles influencias. En los modelos, la variable de interés es significativo.

Los modelos fueron estimados utilizando el glm() de la función en R. Para evaluar la calidad de los modelos, lo he hecho un par de cosas: glm() le da la residual deviance, AIC y BIC por defecto. Además, he calculado la tasa de error del modelo y traza la binned residuos.

  • El modelo completo tiene un pequeño residual de la desviación, la AIC y BIC que los otros modelos que he calculado (y que se anidan en el modelo completo), lo que me lleva a pensar que este modelo es "mejor" que los demás.
  • La tasa de errores del modelo es bastante baja, en mi humilde opinión (como en Gelman y Hill, 2007, pp 99):
    error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1), en torno al 20%.

Hasta ahora tan bueno. Pero cuando me parcela de la binned residual (de nuevo después de Gelman y de la Colina de asesoramiento), una gran parte de los contenedores que se encuentran fuera de la IC 95%: Binned Residuals plot

La parcela que me lleva a pensar que hay algo absolutamente equivocado sobre el modelo. En caso de que me llevan a lanzar el modelo de distancia? Debo reconocer que el modelo es imperfecto, pero mantenerla e interpretar el efecto de la variable de interés? He jugado alrededor de la exclusión de variables a su vez, y también algún tipo de transformación, sin realmente mejorar la binned residuos de la parcela.

Editar:

  • Por el momento, el modelo cuenta con una docena de predictores y 5 efectos de la interacción.
  • Los pares son "relativamente" independientes el uno del otro en el sentido de que todos ellos están formados durante un corto período de tiempo (pero no stricly hablando, todos al mismo tiempo) y hay un montón de proyectos (13k) y una gran cantidad de personas (19k), por lo que una proporción justa de los proyectos sólo se unieron por una sola persona (hay alrededor de 20.000 pares).

11voto

dan90266 Puntos 609

La exactitud de la clasificación (tasa de error) es una mala regla de puntuación (optimizado por un falso modelo), arbitrario, discontinuos y fáciles de manipular. No es necesario en este contexto.

No indique cómo muchos de los predictores que allí estaban. En lugar de evaluar el ajuste del modelo sería tentado a simplemente hacer el ajuste del modelo. Un enfoque de compromiso es asumir que las interacciones no son importantes y para permitir la continua predictores a ser no lineal utilizando la regresión de splines. Parcela en la estimación de las relaciones. El rms paquete en R hace que todo esta relativamente fácil. Ver http://biostat.mc.vanderbilt.edu/rms para obtener más información.

Usted puede elaborar en "pares" y si sus observaciones son independientes.

4voto

Sean Hanley Puntos 2428

La situación parece un poco extraño, pero creo que su parcela, puede proporcionar una pista. Parece que puede haber una relación curvilínea. Está permitido el uso de los términos polinomiales y otras transformaciones de las variables predictoras (por ejemplo, $x^2$) en la regresión logística, como en la regresión por MCO. Esto podría ser vale la pena intentarlo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X