Cuando trabajamos con muchas variables de entrada, a menudo nos preocupa multicolinealidad . Hay una serie de medidas de multicolinealidad que se utilizan para detectar, pensar y/o comunicar la multicolinealidad. Algunas recomendaciones comunes son:
-
Los múltiples R2j para una variable concreta
-
La tolerancia, 1−R2j para una variable concreta
-
El factor de inflación de la varianza, VIF=1tolerance para una variable concreta
-
El número de condición de la matriz de diseño en su conjunto:
√max(eigenvalue(X'X))min(eigenvalue(X'X))
(Hay otras opciones que se comentan en el artículo de Wikipedia, y aquí en SO en el contexto de R.)
El hecho de que las tres primeras sean una función perfecta entre sí sugiere que la única ventaja neta posible entre ellas sería psicológica. Por otra parte, los tres primeros permiten examinar las variables individualmente, lo que podría ser una ventaja, pero he oído que el método del número de condición se considera el mejor.
- ¿Es cierto? ¿Mejor para qué?
- ¿Es el número de condición una función perfecta del R2j 's? (Yo pensaría que sí.)
- ¿Considera la gente que uno de ellos es más fácil de explicar? (Nunca he intentado explicar estos números fuera de clase, sólo doy una descripción suelta y cualitativa de la multicolinealidad).