Como todos sabemos, existen 2 métodos para evaluar el modelo de regresión logística y que prueban cosas muy diferentes
-
Poder de predicción:
Obtenga una estadística que mida lo bien que puede predecir la variable dependiente basándose en las variables independientes. Las Pseudo R^2 más conocidas son McFadden (1974) y Cox y Snell (1989).
-
Estadísticas de bondad de ajuste
La prueba consiste en decir si se podría hacer aún mejor haciendo el modelo más complicado, lo que en realidad es probar si hay alguna no linealidad o o interacciones que se hayan pasado por alto.
Implementé ambas pruebas en mi modelo, que añadió cuadrática e interacción
ya:
>summary(spec_q2)
Call:
glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) +
I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left,
family = binomial())
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.955431 8.838584 0.108 0.9139
Top 0.311891 0.189793 1.643 0.1003
Right -1.015460 0.502736 -2.020 0.0434 *
Left -0.962143 0.431534 -2.230 0.0258 *
Bottom 0.198631 0.157242 1.263 0.2065
I(Top^2) -0.003213 0.002114 -1.520 0.1285
I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 ***
I(Bottom^2) 0.003725 0.001782 2.091 0.0366 *
Top:Right 0.012290 0.007540 1.630 0.1031
Top:Bottom 0.004536 0.002880 1.575 0.1153
Right:Left -0.044283 0.015983 -2.771 0.0056 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 3350.3 on 2799 degrees of freedom
Residual deviance: 1984.6 on 2789 degrees of freedom
AIC: 2006.6
y la potencia predicha es la siguiente, el MaFadden es 0,4004, y el valor entre 0,2~0,4 debe tomarse para presentar un muy buen ajuste del modelo(Louviere et al (2000), Domenich y McFadden (1975)) :
> PseudoR2(spec_q2)
McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count
0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500
AIC Corrected.AIC
2006.6179010 2006.7125925
y las estadísticas de bondad de ajuste:
> hoslem.test(result,phat,g=8)
Hosmer and Lemeshow goodness of fit (GOF) test
data: result, phat
X-squared = 2800, df = 6, p-value < 2.2e-16
Según tengo entendido, el GOF está probando la siguiente hipótesis nula y alternativa:
H0: The models does not need interaction and non-linearity
H1: The models needs interaction and non-linearity
Dado que mis modelos añaden la interacción, la no linealidad y el valor p muestra que se debe rechazar H0, he llegado a la conclusión de que mi modelo necesita la interacción, la no linealidad. Espero que mi interpretación sea correcta y gracias por cualquier consejo de antemano, gracias.