29 votos

Los diagnósticos de colinealidad sólo son problemáticos cuando se incluye el término de interacción

He realizado una regresión sobre los condados de EE.UU. y estoy comprobando si hay colinealidad en mis variables "independientes". Belsley, Kuh y Welsch Diagnóstico de regresión sugiere observar el Índice de Condición y las Proporciones de Descomposición de la Varianza:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif sugiere que los VIF >5 son problemáticos:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

Mientras que la de John Fox Diagnóstico de regresión sugiere mirar la raíz cuadrada del VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

En los dos primeros casos (en los que se sugiere un límite claro), el modelo es problemático sólo cuando se incluye el término de interacción.

El modelo con el término de interacción ha sido hasta ahora mi especificación preferida.

Tengo dos preguntas, dada esta peculiaridad de los datos:

  1. ¿Un término de interacción siempre empeora la colinealidad de los datos?
  2. Dado que las dos variables sin el término de interacción no superan el umbral, ¿es correcto utilizar el modelo con el término de interacción? Específicamente, la razón por la que creo que esto podría estar bien es que estoy utilizando el método de King, Tomz y Wittenberg (2000) para interpretar los coeficientes (modelo binomial negativo), donde generalmente mantengo los otros coeficientes en la media, y luego interpreto lo que sucede con las predicciones de mi variable dependiente cuando muevo inc09_10k y unins09 de forma independiente y conjunta.

41voto

Affine Puntos 1394

Sí, suele ser el caso de las interacciones no centradas. Un vistazo rápido a lo que ocurre con la correlación de dos variables independientes y su "interacción"

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

Y luego, cuando los centras:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

Por cierto, lo mismo puede ocurrir con la inclusión de términos polinómicos (es decir, $X,~X^2,~...$ ) sin centrar primero.

Así que puedes intentarlo con tu pareja.


En cuanto a por qué el centrado ayuda - pero volvamos a la definición de covarianza

\begin{align} \text{Cov}(X,XY) &= E[(X-E(X))(XY-E(XY))] \\ &= E[(X-\mu_x)(XY-\mu_{xy})] \\ &= E[X^2Y-X\mu_{xy}-XY\mu_x+\mu_x\mu_{xy}] \\ &= E[X^2Y]-E[X]\mu_{xy}-E[XY]\mu_x+\mu_x\mu_{xy} \\ \end{align}

Incluso dada la independencia de X e Y

\begin{align} \qquad\qquad\qquad\, &= E[X^2]E[Y]-\mu_x\mu_x\mu_y-\mu_x\mu_y\mu_x+\mu_x\mu_x\mu_y \\ &= (\sigma_x^2+\mu_x^2)\mu_y-\mu_x^2\mu_y \\ &= \sigma_x^2\mu_y \\ \end{align}

Esto no se relaciona directamente con su problema de regresión, ya que probablemente no tiene una $X$ y $Y$ y puesto que la correlación entre dos variables explicativas no siempre da lugar a problemas de multicolinealidad en la regresión. Pero sí muestra cómo una interacción entre dos variables independientes no centradas hace que aparezca la correlación, y esa correlación podría causar problemas de multicolinealidad.


Intuitivamente para mí, el hecho de que las variables no centradas interactúen simplemente significa que cuando $X$ es grande, entonces $XY$ también va a ser mayor a escala absoluta, independientemente de $Y$ y así $X$ y $XY$ terminarán correlacionados, y de forma similar para $Y$ .

2voto

Pat Puntos 66

He encontrado útiles las siguientes publicaciones sobre este tema:

Robinson y Schumacker (2009): Efectos de interacción: centrado, factor de inflación de la varianza y cuestiones de interpretación

Los efectos del escalamiento de los predictores en los coeficientes de las ecuaciones de regresión (soluciones centradas frente a no centradas y efectos de interacción de orden superior (interacciones de 3 vías; efectos categóricos por continuos) han sido tratados de forma reflexiva por Aiken y West (1991). Su ejemplo ilustra que se introduce una multicolinealidad considerable en una ecuación de regresión con un término de interacción cuando las variables no están centradas".

Afshartous y Preston (2011): Resultados clave de los modelos de interacción con centrado

Las motivaciones para emplear el centrado de variables incluyen la mejora de la interpretabilidad de los coeficientes y la reducción de la inestabilidad numérica para la estimación asociada a la multicolinealidad".

Obviamente, Aiken y West (1991) también tratan este tema, pero no tengo su libro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X