¿Cuál sería la forma adecuada de comparar dos modelos de regresión logística con el mismo número de parámetros (es decir, el modelo 1 no está anidado en el modelo 2)? En mi caso, no puedo comparar los modelos con un modelo superconjunto con todos los predictores de ambos modelos, porque al incluir los parámetros diferentes de ambos modelos se produce la no identificabilidad debido a la multicolinealidad.
Respuestas
¿Demasiados anuncios?Aunque no estén anidados, el AIC/BIC o la probabilidad (en su caso especial) parecen tener sentido para comparar cuál es el mejor ajuste.
Algunos estudios sostienen que los modelos deberían estar anidados, por lo que el DIC es más sofisticado y sólido.
Al tratarse de un clasificador, el ROC/AUC o la tasa de aciertos son también una buena forma de comparar los de ellos, en términos de rendimiento de entrenamiento o rendimiento de CV.
Le sugiero que utilice el AIC o el BIC, que son buenos para comparar modelos no anidados. Sólo tienes que asegurarte de que:
-
Ambos modelos tienen la misma N si se utiliza BIC:
El BIC se ajusta al tamaño de la muestra: $BIC = -2\ln(L) + \ln(N)k$ con $N$ siendo el tamaño de la muestra, $L$ siendo la probabilidad, y $k$ siendo el número de parámetros del modelo. Penaliza los modelos grandes y las muestras grandes.
Por otro lado, el AIC sólo se ajusta al número de parámetros: $AIC = -2\ln(L) + 2k$ .
A veces puede terminar con diferentes tamaños de muestra para los modelos debido a las diferencias en los datos que faltan para las variables que se incluyen. No es una buena idea comparar modelos que tienen diferentes tamaños de muestra, y el BIC es especialmente sensible a tales diferencias.
-
La probabilidad que se modela se refiere a lo mismo:
Esto parece ser el caso porque usted utiliza la regresión logística para ambos modelos, pero puede suceder si usted está comparando diferentes tipos de modelo. Por ejemplo, aunque los modelos logit de tiempo discreto y la regresión de supervivencia paramétrica de tiempo exponencial son ambos tipos de modelos de historia de eventos, difieren en términos de lo que representan sus probabilidades. La probabilidad en el logit en tiempo discreto se basa en el número de fallos en el conjunto de riesgo, mientras que la probabilidad en el modelo exponencial (y en otros modelos paramétricos de historia de sucesos en tiempo continuo) se basa en los tiempos de supervivencia en los datos. Por lo tanto, las probabilidades pueden diferir en valor sólo por eso, aunque un modelo no sea mejor que el otro.
Este hilo en statalist y esto archivo de ayuda abordar una cuestión similar a la suya.
Una buena adición a esta respuesta que se proporciona en los comentarios: si su modelo tiene el mismo número de parámetros y tamaño de la muestra, usted está comparando efectivamente las desviaciones de los dos modelos mediante la comparación de BIC o AIC, lo que también funciona bien.