Christopher Manning's escritura sobre la regresión logística en R muestra una regresión logística en R de la siguiente manera:
ced.logr <- glm(ced.del ~ cat + follows + factor(class),
family=binomial)
Algunos resultados:
> summary(ced.logr)
Call:
glm(formula = ced.del ~ cat + follows + factor(class),
family = binomial("logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-3.24384 -1.34325 0.04954 1.01488 6.40094
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.31827 0.12221 -10.787 < 2e-16
catd -0.16931 0.10032 -1.688 0.091459
catm 0.17858 0.08952 1.995 0.046053
catn 0.66672 0.09651 6.908 4.91e-12
catv -0.76754 0.21844 -3.514 0.000442
followsP 0.95255 0.07400 12.872 < 2e-16
followsV 0.53408 0.05660 9.436 < 2e-16
factor(class)2 1.27045 0.10320 12.310 < 2e-16
factor(class)3 1.04805 0.10355 10.122 < 2e-16
factor(class)4 1.37425 0.10155 13.532 < 2e-16
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 958.66 on 51 degrees of freedom
Residual deviance: 198.63 on 42 degrees of freedom
AIC: 446.10
Number of Fisher Scoring iterations: 4
A continuación, entra en detalles sobre cómo interpretar los coeficientes, comparar diferentes modelos, etc. Bastante útil.
Sin embargo, ¿cuánta varianza tiene en cuenta el modelo? A Página de Stata sobre regresión logística dice:
Técnicamente, $R^2$ no puede calcularse de la misma manera en la regresión logística que en la regresión OLS. La pseudo- $R^2$ en la regresión logística, se define como $1 - \frac{L1}{L0}$ , donde $L0$ representa la probabilidad logarítmica para el modelo "sólo constante" y $L1$ es la probabilidad logarítmica para el modelo completo con la constante y los predictores.
Lo entiendo a alto nivel. El modelo de sólo constante sería sin ninguno de los parámetros (sólo el término de intercepción). La probabilidad logarítmica es una medida de cómo los parámetros se ajustan a los datos. De hecho, Manning insinúa que la desviación podría ser $-2 \log L$ . Tal vez la desviación nula sea sólo constante y la desviación residual sea $-2 \log L$ del modelo? Sin embargo, no lo tengo muy claro.
¿Puede alguien verificar cómo se calcula realmente el pseudo- $R^2$ en R utilizando este ejemplo?
6 votos
Las páginas de cálculo estadístico de la UCLA, que suelen ser excelentes, han cometido un raro error en este caso: no debería haber ningún paréntesis en la expresión de pseudo- $R^2$ es decir, debe ser $1-L_1/L_0$ . (Siento no haber respondido a sus preguntas, ya que estoy a punto de irme a la cama; estoy seguro de que alguien más habrá respondido a esto antes de que yo esté lo suficientemente despierto para hacerlo).
7 votos
Aquí se planteó una pregunta algo relacionada, Regresión logística: ¿Qué medida de pseudo R-cuadrado es la que hay que informar (Cox & Snell o Nagelkerke)? .
5 votos
Esta página discute varios pseudo-R^2s.
2 votos
Nota: la pregunta relacionada no le gusta ningún pseudo-R^2, sino que prefiere la validación cruzada o la predicción de prueba de retención.