Recientemente he estado trabajando en un modelo logístico y estoy teniendo algunas dificultades en la evaluación de los resultados. Todavía estoy aprendiendo de todo esto, así que me disculpo de antemano por los errores. Yo todavía apreciar ninguna pista, aunque.
Por lo tanto, mi modelo es un logit binomial. Mis variables explicativas son: 1 variable categórica con 15 categorías, 1 variable dicotómica, y 2 variables continuas. A mi N es grande +8000
Estoy tratando de modelar la decisión de las Empresas para invertir. Variable dependiente en la Inversión (sí/no), el 15 de variables de nivel son diferentes obstáculos para las inversiones reportadas por parte de los gestores. El resto de las variables son los controles de ventas, créditos y capacidad utilizada.
A continuación son mis resultados, utilizando el paquete rms en R.
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 8035 LR chi2 399.83 R2 0.067 C 0.632
1 5306 d.f. 17 g 0.544 Dxy 0.264
2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266
max |deriv| 6e-09 gp 0.119 tau-a 0.118
Brier 0.213
Coef S.E. Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33 <0.0001
x1=10 -0.4929 0.1000 -4.93 <0.0001
x1=11 -0.5735 0.1057 -5.43 <0.0001
x1=12 -0.0748 0.0806 -0.93 0.3536
x1=13 -0.3894 0.1318 -2.96 0.0031
x1=14 -0.2788 0.0953 -2.92 0.0035
x1=15 -0.7672 0.2302 -3.33 0.0009
x1=2 -0.5360 0.2668 -2.01 0.0446
x1=3 -0.3258 0.1548 -2.10 0.0353
x1=4 -0.4092 0.1319 -3.10 0.0019
x1=5 -0.5152 0.2304 -2.24 0.0254
x1=6 -0.2897 0.1538 -1.88 0.0596
x1=7 -0.6216 0.1768 -3.52 0.0004
x1=8 -0.5861 0.1202 -4.88 <0.0001
x1=9 -0.5522 0.1078 -5.13 <0.0001
d2 0.0000 0.0000 -0.64 0.5206
f1 -0.0088 0.0011 -8.19 <0.0001
k8 0.7348 0.0499 14.74 <0.0001
Básicamente quiero para evaluar la regresión de dos maneras, a) qué tan bien el modelo se ajusta a los datos y b) cómo es el modelo en la predicción de los resultados.
para a) (bondad de ajuste): La desviación pruebas de Chi-cuadrado no son apropiados en este caso, ya que el número de covariables se aproxima a N, por lo que no podemos asumir una distribución X2. Es esta la interpretación correcta?
Puedo ver que las covariables mediante el epiR paquete.
requieren(epiR) logit.cp <- epi.cp(logit.df[-1]))
id n x1 d2 f1 k8
1 1 13 2030 56 1
2 1 14 445 51 0
3 1 12 1359 51 1
4 1 1 1163 39 0
5 1 7 547 62 0
6 1 5 3721 62 1
...
7446
También he leído que el de Hosmer-Lemeshow gof prueba es obsoleta, ya que divide los datos a las 10 de la orden para ejecutar la prueba, que es más bien arbitraria.
En lugar de eso utiliza el archivo Cessie–van Houwelingen–Copas–prueba de Hosmer, implementado en el paquete rms. Yo no estoy seguro exactamente de cómo se realiza esta prueba, no he leído los periódicos. En cualquier caso, los resultados son:
Sum of squared errors Expected value|H0 SD Z
1711.6449914 1712.2031888 0.5670868 -0.9843245
P
0.3249560
P es grande, por lo que no hay suficiente evidencia para decir que mi modelo no encaja. Genial!!! Sin embargo....
b) Cuando la comprobación de la capacidad predictiva del modelo, puedo dibujar la curva ROC y se obtienen los siguientes resultados:
Las AUC se 0.6320586
Que no se ven muy bien.
Así que, para resumir mis preguntas:
1 - Son la realización de las pruebas de ejecución adecuado para comprobar mi modelo? ¿Qué otra prueba podría considerar?
2 - ¿se encuentra el modelo de utilidad, o tendría que descartar que se basa en la relativamente pobre ROC resultados de los análisis?