He ajustado dos modelos diferentes de regresión logística binomial A y B. El modelo A contiene sólo una variable de predicción. El modelo B contiene un conjunto diferente de variables predictoras, ninguna de las cuales es el predictor incluido en el modelo A. Existe un grado notable de multicolinealidad entre los predictores del modelo B. Quiero comparar en qué medida los dos modelos pueden explicar la variación de mis datos.
Habitualmente, cuando se discuten las consecuencias de la multicolinealidad en los modelos de regresión lineal, la mayoría de los autores se centran en el efecto sobre los predictores. Por ejemplo Dormann et al (2012) señalan que los errores estándar de los coeficientes colineales se inflarán, lo que conduce a "pruebas de significación inexactas para los predictores, lo que significa que los predictores importantes pueden no ser significativos, incluso si son realmente influyentes" (p. 29).
Sin embargo, lo que me resulta menos claro es el efecto de la multicolinealidad en el rendimiento global del modelo. Esta pregunta se pregunta si la multicolinealidad afecta al rendimiento del modelo como clasificador, con referencia a la Artículo de Wikipedia sobre Multicolinealidad que dice que "la multicolinealidad no reduce el poder predictivo ni la fiabilidad del modelo en su conjunto, al menos dentro del conjunto de datos de la muestra". En su respuesta En cuanto a la pregunta, @EdM parece confirmar que la multicolinealidad no afecta a la fiabilidad del modelo a menos que se utilice para predecir un conjunto de datos distinto del utilizado para ajustarlo.
Mi caso es algo diferente porque no quiero utilizar los modelos como clasificadores en datos nuevos. En su lugar, quiero comparar lo bien que pueden explicar mi conjunto de datos. Por lo tanto, esa respuesta me sigue dejando con las siguientes preguntas:
- ¿Es válido afirmar que la varianza explicada de un modelo es invariable ante la presencia de multicolinealidad?
- ¿Puedo utilizar aún medidas como AIC o AUROC para comparar el rendimiento de mis modelos A y B aunque los predictores del modelo B estén fuertemente correlacionados?
- ¿Existe alguna referencia citable en la que se analice el efecto de la multicolinealidad sobre la varianza explicada de los modelos y sobre medidas como el AIC o el AUROC?