Me di cuenta mientras trasteando con un modelo multivariante de regresión hubo una pequeña pero notable efecto de la multicolinealidad, como medido por la varianza de la inflación de factores, dentro de las categorías de una variable categórica (después de la exclusión de la categoría de referencia, por supuesto).
Por ejemplo, digamos que tenemos un conjunto de datos con una variable continua y y una variable categórica nominal x que tiene k posibles valores mutuamente excluyentes. Nosotros código de los $k$ valores posibles, como 0/1 variables ficticias $x_1, x_2,\dots ,x_k$. A continuación, realizamos un modelo de regresión $y = b_0 + b_1x_1 + b_2x_2 + \dots + b_{k-1}x_{k-1}$. La VIF calificaciones de las $k-1$ dummy variables resultan ser no-cero. De hecho, como el número de categorías aumenta, el aumento de la VIFs. El centrado de las variables ficticias no aparece para cambiar la VIFs.
La explicación intuitiva, parece ser que los que se excluyen mutuamente condición de las categorías en la variable categórica la causa de esta ligera multicolinealidad. Es este un trivial encontrar o es una cuestión a tener en cuenta cuando la construcción de modelos de regresión con variables categóricas?