Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

2 votos

¿Es la varianza explicada de un modelo invariable ante la presencia de multicolinealidad?

He ajustado dos modelos diferentes de regresión logística binomial A y B. El modelo A contiene sólo una variable de predicción. El modelo B contiene un conjunto diferente de variables predictoras, ninguna de las cuales es el predictor incluido en el modelo A. Existe un grado notable de multicolinealidad entre los predictores del modelo B. Quiero comparar en qué medida los dos modelos pueden explicar la variación de mis datos.

Habitualmente, cuando se discuten las consecuencias de la multicolinealidad en los modelos de regresión lineal, la mayoría de los autores se centran en el efecto sobre los predictores. Por ejemplo Dormann et al (2012) señalan que los errores estándar de los coeficientes colineales se inflarán, lo que conduce a "pruebas de significación inexactas para los predictores, lo que significa que los predictores importantes pueden no ser significativos, incluso si son realmente influyentes" (p. 29).

Sin embargo, lo que me resulta menos claro es el efecto de la multicolinealidad en el rendimiento global del modelo. Esta pregunta se pregunta si la multicolinealidad afecta al rendimiento del modelo como clasificador, con referencia a la Artículo de Wikipedia sobre Multicolinealidad que dice que "la multicolinealidad no reduce el poder predictivo ni la fiabilidad del modelo en su conjunto, al menos dentro del conjunto de datos de la muestra". En su respuesta En cuanto a la pregunta, @EdM parece confirmar que la multicolinealidad no afecta a la fiabilidad del modelo a menos que se utilice para predecir un conjunto de datos distinto del utilizado para ajustarlo.

Mi caso es algo diferente porque no quiero utilizar los modelos como clasificadores en datos nuevos. En su lugar, quiero comparar lo bien que pueden explicar mi conjunto de datos. Por lo tanto, esa respuesta me sigue dejando con las siguientes preguntas:

  • ¿Es válido afirmar que la varianza explicada de un modelo es invariable ante la presencia de multicolinealidad?
  • ¿Puedo utilizar aún medidas como AIC o AUROC para comparar el rendimiento de mis modelos A y B aunque los predictores del modelo B estén fuertemente correlacionados?
  • ¿Existe alguna referencia citable en la que se analice el efecto de la multicolinealidad sobre la varianza explicada de los modelos y sobre medidas como el AIC o el AUROC?

2voto

Dave Puntos 76

Por los comentarios, es evidente que te refieres a algún tipo de medida de precisión predictiva, cualquiera de las cuales sería una función de las predicciones y las observaciones verdaderas.

La multicolinealidad no puede afectar a las observaciones verdaderas, ya que son las observaciones aunque no se haga ningún modelado, así que para que la multicolinealidad influya en la exactitud predictiva, la multicolinealidad debe influir en las predicciones.

Hagamos una simulación en la que hagamos una regresión logística sobre dos variables correlacionadas, hagamos una regresión sobre una transformación de esas variables que retenga toda la información eliminando la correlación, y comparemos las predicciones.

library(MASS)
set.seed(2022)
N <- 25
X <- MASS::mvrnorm(N, c(0, 0), matrix(c(1, 0.9, 0.9, 1), 2, 2))
y <- rbinom(N, 1, 0.5)
L_correlated <- glm(y ~ X, family = binomial)
predictions_correlated <- predict(L_correlated)
PCs <- X %*% prcomp(X)$rotation # Do PCA to remove correlation
L_uncorrelated <- glm(y ~ PCs, family = binomial) # Take all PCs to
                                                  # retain all information
predictions_uncorrelated <- predict(L_uncorrelated)
round(predictions_correlated - predictions_uncorrelated, 14)

Aparte de los problemas de aritmética de coma flotante más allá del 14th decimal, las predicciones son las mismas.

En los MLG, la multicolinealidad puede afectar a las interpretaciones, los valores p y los intervalos de confianza, pero no a los valores predichos. . A algunas personas tampoco les gusta la multicolinealidad porque creen que pueden eliminar algunas variables y conservar la mayor parte de la información, al tiempo que reducen el número de parámetros. Por mucho que eso tenga sentido, no es perfecto e incluso podría ser bastante problemático.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X