Me encontré exactamente con la misma pregunta y traté de abrirme camino. Vea mi respuesta detallada más abajo.
En primer lugar, he encontrado 4 opciones que producen valores VIF similares en R:
- corvif
del paquete AED,
- vif
del paquete del coche,
- vif
del paquete rms,
- vif
del paquete DAAG.
El uso de estos comandos en un conjunto de predictores que no incluya ningún factor/variable categórica o términos polinómicos es sencillo. Los tres comandos producen la misma salida numérica aunque el corvif
del paquete DEA etiqueta los resultados como GVIF.
Sin embargo, normalmente, el GVIF sólo entra en juego para los factores y las variables polinómicas. Las variables que requieren más de un coeficiente y, por tanto, más de un grado de libertad, suelen evaluarse mediante el GVIF. Para los términos de un coeficiente, el VIF es igual al GVIF.
Por lo tanto, se pueden aplicar las reglas empíricas estándar sobre si la colinealidad puede ser un problema, como un umbral de 3, 5 o 10. Sin embargo, podría (debería) aplicarse cierta precaución (véase: http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf ).
En el caso de los términos multicoeficientes, como por ejemplo los predictores categóricos, los 4 paquetes producen resultados diferentes. El vif
Los comandos de los paquetes rms y DAAG producen valores VIF, mientras que los otros dos producen valores GVIF.
Veamos primero los valores VIF de los paquetes rms y DAAG:
TNAP ICE RegB RegC RegD RegE
1.994 2.195 3.074 3.435 2.907 2.680
TNAP e ICE son predictores continuos y Reg es una variable categórica presentada por las variables ficticias RegB a RegE. En este caso, RegA es la línea de base. Todos los valores de VIF son bastante moderados y, por lo general, no son motivo de preocupación. El problema de este resultado es que se ve afectado por la línea de base de la variable categórica. Para estar seguros de no tener un valor VIF por encima de un nivel aceptable, sería necesario volver a realizar este análisis para cada nivel de la variable categórica que es la línea de base. En este caso, cinco veces.
La aplicación de la corvif
del paquete AED o vif
del paquete de coches, se producen los valores GVIF:
| GVIF | Df | GVIF^(1/2Df) |
TNAP | 1.993964 | 1 | 1.412078 |
ICE | 2.195035 | 1 | 1.481565 |
Reg | 55.511089 | 5 | 1.494301 |
El GVIF se calcula para conjuntos de regresores relacionados, como un para un conjunto de regresores ficticios. Para las dos variables continuas TNAP e ICE se obtienen los mismos valores de VIF que antes. Para la variable categórica Reg, ahora obtenemos un valor GVIF muy alto, aunque los valores VIF para los niveles individuales de la variable categórica eran todos moderados (como se muestra arriba).
Sin embargo, la interpretación es diferente. Para las dos variables continuas, $GVIF^{(1/(2 \times Df))}$ (que es básicamente la raíz cuadrada del valor VIF/GVIF como DF = 1) es el cambio proporcional del error estándar y del intervalo de confianza de sus coeficientes debido al nivel de colinealidad. El $GVIF^{(1/(2 \times Df))}$ de la variable categórica es una medida similar para la reducción de la precisión de la estimación de los coeficientes debido a la colinealidad (aunque no está preparado para citar también mira http://socserv2.socsci.mcmaster.ca/jfox/papers/linear-models-problems.pdf ).
Si aplicamos simplemente las mismas reglas generales para $GVIF^{(1/(2 \times Df))}$ como se recomienda en la literatura para el VIF, simplemente tenemos que elevar al cuadrado $GVIF^{(1/(2 \times Df))}$ .
Leyendo todos los post del foro, notas cortas en la web y artículos científicos, parece que hay bastante confusión. En los artículos revisados por pares, he encontrado los valores de $GVIF^{(1/(2 \times Df))}$ se ignoran y se aplican a los valores de GVIF las mismas reglas estándar sugeridas para el VIF. En otro documento, se exceptúan los valores de GVIF cercanos a 100 debido a una $GVIF^{(1/(2 \times Df))}$ (debido a una alta DF). La regla de $GVIF^{(1/(2 \times Df))} < 2$ se aplica en algunas publicaciones, lo que equivaldría a un VIF ordinario de 4 para variables de un solo coeficiente.