43 votos

¿Qué factor de inflación de la varianza debería utilizar? $\text{GVIF}$ o $\text{GVIF}^{1/(2\cdot\text{df})}$ ?

Estoy tratando de interpretar los factores de inflación de la varianza utilizando el vif en el paquete R car . La función imprime tanto un $\text{VIF}$ y también $\text{GVIF}^{1/(2\cdot\text{df})}$ . Según el archivo de ayuda este último valor

Para ajustar la dimensión del elipsoide de confianza, la función también imprime GVIF^[1/(2*df)] donde df son los grados de libertad asociados al término.

No entiendo el significado de esta explicación en el archivo de ayuda, así que no estoy seguro de si debería usar $\text{GVIF}$ o $\text{GVIF}^{1/(2\cdot\text{df})}$ . Para mi modelo estos dos valores son muy diferentes (máximo $\text{GVIF}$ es ~ $60$ máximo $\text{GVIF}^{1/(2\cdot\text{df})}$ es ~ $3$ ).

¿Podría alguien explicarme cuál debería utilizar y qué significa ajustar la dimensión del elipsoide de confianza?

41voto

Chris Dutrow Puntos 307

Georges Monette y yo introdujimos el GVIF en el artículo "Generalized collinearity diagnostics", JASA 87:178-183, 1992 ( enlace ). Como explicamos, el GVIF representa la relación al cuadrado de los hipervolúmenes del elipsoide de confianza conjunta para un subconjunto de coeficientes con respecto al elipsoide "utópico" que se obtendría si los regresores de este subconjunto no estuvieran correlacionados con los regresores del subconjunto complementario. En el caso de un único coeficiente, esto se especializa en el VIF habitual. Para que los GVIF sean comparables entre dimensiones, sugerimos utilizar GVIF^(1/(2*Df)), donde Df es el número de coeficientes en el subconjunto. En efecto, esto reduce el GVIF a una medida lineal, y para el VIF, donde Df = 1, es proporcional a la inflación debida a la colinealidad en el intervalo de confianza para el coeficiente.

4 votos

¡Bienvenido a nuestra página web! Estaremos encantados de que registres tu cuenta y vengas a visitarnos de vez en cuando. Una pequeña nota de orden: no tienes que firmar tus mensajes, tu identificador, con un enlace a tu página de usuario, se añade automáticamente a cada respuesta que das.

35voto

qyb2zm302 Puntos 6328

Me encontré exactamente con la misma pregunta y traté de abrirme camino. Vea mi respuesta detallada más abajo.

En primer lugar, he encontrado 4 opciones que producen valores VIF similares en R:

- corvif del paquete AED,

- vif del paquete del coche,

- vif del paquete rms,

- vif del paquete DAAG.

El uso de estos comandos en un conjunto de predictores que no incluya ningún factor/variable categórica o términos polinómicos es sencillo. Los tres comandos producen la misma salida numérica aunque el corvif del paquete DEA etiqueta los resultados como GVIF.

Sin embargo, normalmente, el GVIF sólo entra en juego para los factores y las variables polinómicas. Las variables que requieren más de un coeficiente y, por tanto, más de un grado de libertad, suelen evaluarse mediante el GVIF. Para los términos de un coeficiente, el VIF es igual al GVIF.

Por lo tanto, se pueden aplicar las reglas empíricas estándar sobre si la colinealidad puede ser un problema, como un umbral de 3, 5 o 10. Sin embargo, podría (debería) aplicarse cierta precaución (véase: http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf ).

En el caso de los términos multicoeficientes, como por ejemplo los predictores categóricos, los 4 paquetes producen resultados diferentes. El vif Los comandos de los paquetes rms y DAAG producen valores VIF, mientras que los otros dos producen valores GVIF.

Veamos primero los valores VIF de los paquetes rms y DAAG:

TNAP     ICE     RegB    RegC    RegD    RegE

1.994    2.195   3.074   3.435   2.907   2.680

TNAP e ICE son predictores continuos y Reg es una variable categórica presentada por las variables ficticias RegB a RegE. En este caso, RegA es la línea de base. Todos los valores de VIF son bastante moderados y, por lo general, no son motivo de preocupación. El problema de este resultado es que se ve afectado por la línea de base de la variable categórica. Para estar seguros de no tener un valor VIF por encima de un nivel aceptable, sería necesario volver a realizar este análisis para cada nivel de la variable categórica que es la línea de base. En este caso, cinco veces.

La aplicación de la corvif del paquete AED o vif del paquete de coches, se producen los valores GVIF:

     |  GVIF     | Df | GVIF^(1/2Df) |  

TNAP | 1.993964  | 1  | 1.412078     |
ICE  | 2.195035  | 1  | 1.481565     | 
Reg  | 55.511089 | 5  | 1.494301     |

El GVIF se calcula para conjuntos de regresores relacionados, como un para un conjunto de regresores ficticios. Para las dos variables continuas TNAP e ICE se obtienen los mismos valores de VIF que antes. Para la variable categórica Reg, ahora obtenemos un valor GVIF muy alto, aunque los valores VIF para los niveles individuales de la variable categórica eran todos moderados (como se muestra arriba).

Sin embargo, la interpretación es diferente. Para las dos variables continuas, $GVIF^{(1/(2 \times Df))}$ (que es básicamente la raíz cuadrada del valor VIF/GVIF como DF = 1) es el cambio proporcional del error estándar y del intervalo de confianza de sus coeficientes debido al nivel de colinealidad. El $GVIF^{(1/(2 \times Df))}$ de la variable categórica es una medida similar para la reducción de la precisión de la estimación de los coeficientes debido a la colinealidad (aunque no está preparado para citar también mira http://socserv2.socsci.mcmaster.ca/jfox/papers/linear-models-problems.pdf ).

Si aplicamos simplemente las mismas reglas generales para $GVIF^{(1/(2 \times Df))}$ como se recomienda en la literatura para el VIF, simplemente tenemos que elevar al cuadrado $GVIF^{(1/(2 \times Df))}$ .

Leyendo todos los post del foro, notas cortas en la web y artículos científicos, parece que hay bastante confusión. En los artículos revisados por pares, he encontrado los valores de $GVIF^{(1/(2 \times Df))}$ se ignoran y se aplican a los valores de GVIF las mismas reglas estándar sugeridas para el VIF. En otro documento, se exceptúan los valores de GVIF cercanos a 100 debido a una $GVIF^{(1/(2 \times Df))}$ (debido a una alta DF). La regla de $GVIF^{(1/(2 \times Df))} < 2$ se aplica en algunas publicaciones, lo que equivaldría a un VIF ordinario de 4 para variables de un solo coeficiente.

0 votos

Bienvenido al sitio, @JanPhilippS. Esto parece tanto una pregunta nueva como una respuesta a la pregunta del OP. Por favor, utiliza sólo el campo "Tu respuesta" para dar respuestas. Si tienes tu propia pregunta, haz clic en el botón [ASK QUESTION] en la parte superior y pregunte allí, entonces podremos ayudarle adecuadamente. Como eres nuevo aquí, tal vez quieras tomar nuestro tour que contiene información para los nuevos usuarios.

2 votos

Bueno, en realidad no es una pregunta nueva. Más bien una respuesta detallada.

1 votos

@JanPhilippS, gracias por los enlaces a las fuentes para seguir leyendo. Tu post me ha parecido una respuesta de calidad que ha permitido reflexionar sobre el estado de la cuestión.

8voto

user133232 Puntos 446

Fox y Monette (cita original del GVIF, GVIF^1/2df) sugieren que tomar el GVIF a la potencia de 1/2df hace que el valor del GVIF sea comparable entre diferentes números de parámetros. "Es análogo a tomar la raíz cuadrada del factor de inflación de la varianza habitual" ( de An R and S-Plus Companion to Applied Regression por John Fox). Así que sí, elevarlo al cuadrado y aplicar la "regla general" habitual del VIF parece razonable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X