94 votos

¿Qué significan los residuos en una regresión logística?

En la respuesta este La pregunta John Christie sugirió que el ajuste de los modelos de regresión logística debería evaluarse mediante la evaluación de los residuos. Estoy familiarizado con la interpretación de los residuos en la OLS, están en la misma escala que la DV y muy claramente la diferencia entre la y y predicha por el modelo. Sin embargo, para la regresión logística, en el pasado he examinado típicamente sólo estimaciones de ajuste del modelo, por ejemplo, AIC, porque no estaba seguro de lo que significaría un residuo para una regresión logística. Después de mirar un poco en los archivos de ayuda de R, veo que en R hay cinco tipos de residuos glm disponibles, c("desviación", "pearson", "trabajando", "respuesta", "parcial"). El archivo de ayuda se refiere a Davison, A. C. y Snell, E. J. (1991) Residuos y diagnósticos. In: Statistical Theory and Modelling. En honor a Sir David Cox, FRS, eds. Hinkley, D. V., Reid, N. y Snell, E. J., Chapman & Hall, de los que no tengo copia. ¿Hay una forma corta de describir cómo interpretar cada uno de estos tipos? En un contexto logístico, ¿la suma de los residuos al cuadrado proporcionará una medida significativa del ajuste del modelo o es mejor con un Criterio de Información?

2 votos

Hay elementos de esta pregunta que siguen sin respuesta, por ejemplo, la naturaleza de los residuos "pearson", "working", "response" y "partial", pero por ahora aceptaré la respuesta de Thylacoleo.

2 votos

Me parece que el binnedplot en el paquete R brazo ofrece un gráfico muy útil de los residuos. Se describe muy bien en las páginas 97-101 de Gelman y Hill 2007 .

2 votos

Una forma muy fácil de comprobar el ajuste del modelo es un gráfico de las proporciones observadas frente a las predichas. Pero esto no funcionará si tiene una regresión bernoulli (es decir, todas sus observaciones tienen combinaciones únicas de las variables independientes, de modo que $n_i=1$ ), porque sólo verá una línea de ceros y unos.

49voto

palmsey Puntos 3799

Los residuos más fáciles de entender son los de desviación, ya que cuando se elevan al cuadrado suman -2 veces la log-verosimilitud. En sus términos más sencillos, la regresión logística puede entenderse como el ajuste de la función $p = \text{logit}^{-1}(X\beta)$ para los conocidos $X$ de forma que se minimice la desviación total, que es la suma de los residuos de desviación al cuadrado de todos los puntos de datos.

La desviación (al cuadrado) de cada punto de datos es igual a (-2 veces) el logaritmo de la diferencia entre su probabilidad predicha $\text{logit}^{-1}(X\beta)$ y el complemento de su valor real (1 para un control; un 0 para un caso) en términos absolutos. Un ajuste perfecto de un punto (que nunca se produce) da una desviación de cero, ya que log(1) es cero. Un punto mal ajustado tiene una desviación residual grande, ya que -2 veces el logaritmo de un valor muy pequeño es un número grande.

Hacer una regresión logística es como encontrar un valor beta tal que la suma de los residuos de desviación al cuadrado se minimice.

Esto se puede ilustrar con un gráfico, pero no sé cómo subir uno.

0 votos

He corregido un error en mi respuesta original. Primero escribí p=logit(X beta). De hecho, la probabilidad predicha es el logit inverso de la combinación lineal, p=inv-logit(X beta). En R se calcula como p<-plogit(X beta), que es p=exp(X beta)/(1+exp(X*beta)).

1 votos

¿Qué paquete de R es plogit ¿de? No estaba claro si lo definías aquí o lo sacabas de otro sitio.

1 votos

@Amyunimus plogit está en R (stats), no se requiere ningún paquete (al menos ya no)

9voto

ojblass Puntos 431

Sobre los residuos de Pearsons,

El residuo de Pearson es la diferencia entre las probabilidades observadas y las estimadas, dividida por la desviación estándar binomial de la probabilidad estimada. Por lo tanto, se estandarizan los residuos. Para muestras grandes, los residuos estandarizados deberían tener una distribución normal.

De Menard, Scott (2002). Applied logistic regression analysis, 2nd Edition. Thousand Oaks, CA: Sage Publications. Series: Quantitative Applications in the Social Sciences, No. 106. Primera edición, 1995. Véase el capítulo 4.4

9 votos

Esto no es del todo correcto sobre las muestras grandes. Se trata más bien de que se requieren grandes recuentos de células binomiales $n_i$ o lo que es lo mismo, una gran cantidad de réplicas de covariables. Los residuos de Pearson están lejos de tener una distribución normal para cualquier observación en la que $n_i<5$ .

8voto

James Sutherland Puntos 2033

Python se instala con cada nivel de producto, y sí, arcpy está instalado y funcionará en ambos, incluyendo cosas como la automatización de mapas.

6voto

Full of Powers Puntos 66

Este libro de Hardin y Hilbe, disponible en Google Books El artículo de la revista "La vida en el mundo" ofrece breves explicaciones sobre los distintos tipos de residuos.

6voto

Mel Puntos 1082

Los residuos de trabajo son los residuos en la iteración final de cualquier método de mínimos cuadrados ponderados iterativamente . Creo que se trata de los residuos cuando pensamos que es la última iteración de nuestra ejecución del modelo. Esto puede dar lugar a la discusión de que la ejecución del modelo es un ejercicio iterativo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X