En la respuesta este La pregunta John Christie sugirió que el ajuste de los modelos de regresión logística debería evaluarse mediante la evaluación de los residuos. Estoy familiarizado con la interpretación de los residuos en la OLS, están en la misma escala que la DV y muy claramente la diferencia entre la y y predicha por el modelo. Sin embargo, para la regresión logística, en el pasado he examinado típicamente sólo estimaciones de ajuste del modelo, por ejemplo, AIC, porque no estaba seguro de lo que significaría un residuo para una regresión logística. Después de mirar un poco en los archivos de ayuda de R, veo que en R hay cinco tipos de residuos glm disponibles, c("desviación", "pearson", "trabajando", "respuesta", "parcial"). El archivo de ayuda se refiere a Davison, A. C. y Snell, E. J. (1991) Residuos y diagnósticos. In: Statistical Theory and Modelling. En honor a Sir David Cox, FRS, eds. Hinkley, D. V., Reid, N. y Snell, E. J., Chapman & Hall, de los que no tengo copia. ¿Hay una forma corta de describir cómo interpretar cada uno de estos tipos? En un contexto logístico, ¿la suma de los residuos al cuadrado proporcionará una medida significativa del ajuste del modelo o es mejor con un Criterio de Información?
He corregido un error en mi respuesta original. Primero escribí p=logit(X beta). De hecho, la probabilidad predicha es el logit inverso de la combinación lineal, p=inv-logit(X beta). En R se calcula como p<-plogit(X beta), que es p=exp(X beta)/(1+exp(X*beta)).
2 votos
Hay elementos de esta pregunta que siguen sin respuesta, por ejemplo, la naturaleza de los residuos "pearson", "working", "response" y "partial", pero por ahora aceptaré la respuesta de Thylacoleo.
2 votos
Me parece que el
binnedplot
en el paquete R brazo ofrece un gráfico muy útil de los residuos. Se describe muy bien en las páginas 97-101 de Gelman y Hill 2007 .2 votos
Una forma muy fácil de comprobar el ajuste del modelo es un gráfico de las proporciones observadas frente a las predichas. Pero esto no funcionará si tiene una regresión bernoulli (es decir, todas sus observaciones tienen combinaciones únicas de las variables independientes, de modo que $n_i=1$ ), porque sólo verá una línea de ceros y unos.
0 votos
Sí, por desgracia, suelo utilizar un DV Bernoulli.
0 votos
Este libro de Hardin y Hilbe, disponible en Google Books El artículo de la revista "La vida en el mundo" ofrece breves explicaciones sobre los distintos tipos de residuos.
0 votos
Algunas explicaciones y definiciones de Pearson y de la desviación y de los residuos estudiados están disponibles en http://data.princeton.edu/wws509/notes/c3s8.html
0 votos
@rpierce: Entonces puedes simplemente sobretrazar un smooth (como el loess) de los 0's y 1's.
0 votos
@TheodoreLytras, Sería genial si la respuesta añadiera la traducción entre los tipos de residuos de R y estos nombres. No todos se llaman igual.
2 votos
Ver también Entender glm$residuals y resid(glm) en Stack Overflow .
0 votos
Nota: aunque la definición de estos residuos es sencilla, su interpretación no lo es tanto. Para ello, el paquete DHARMa de R puede resultarle útil. Véase la viñeta aquí cran.r-project.org/web/packages/DHARMa/vignettes/DHARMa.html