¿Hay una manera de determinar qué variable tiene más influencia en la variable dependiente cuando sus variables están altamente correlacionadas entre sí? La mayoría de las formas que tratan con la multicolinealidad ayudan a mejorar la predicción, como eliminar variables que tienen un factor de inflación de alta varianza o combinar variables que tienen alta colinealidad en un solo predictor, pero no responden la pregunta de qué variable es más importante.
Respuesta
¿Demasiados anuncios?Suponiendo que usted está haciendo OLS ($Y=X\beta_{ols}+\epsilon$), este es un enfoque utilizando análisis de componentes principales (PCA) que puede proporcionar una idea:
1) Degradan y dividir cada una de sus variables independientes por su desviación estándar, esto permitirá que sea más fácil la interpretación más tarde.
2) Realizar PCA en su $k$ número de variables independientes, con $n$ observaciones. Este se descompone en las puntuaciones, un $n$ $k$ matriz $S$ $k$ $k$ plaza de la transformación de la matriz $T$: $$ X=ST $$ Las calificaciones tienen la propiedad de que cada columna es completamente correlacionados con la de todas las demás columnas, de modo que $cor(s_j,s_i)=0$ para todos los valores de $j$$i$, y la transformación de la matriz $T$ tienen la propiedad de ser invertable. Además, en la primera columna de $S$, lo que permite decir $s_1$, que será la más importante en términos de explicar los puntos en común entre las columnas de a $X$ (esto es porque la primera columna está asociada con el mayor autovalor).
3) Estimar el modelo utilizando las puntuaciones: $$ Y=S\beta_{pca}+\epsilon $$ Los coeficientes no son inmediatamente interpretable, así que la próxima es donde el truco.
4) Buscar en el $j^{th}$ columna de $T^{-1}$ correspondiente a la $\beta_{pca,j}$ con mayor t-estadístico - esto le dirá cuáles son las relaciones dentro de $X$ son los más importantes. La razón es clara después de la re-escritura de las identidades de arriba: $$ \hat{Y}=X\beta_{ols}=(S)\beta_{pca}=(XT^{-1})\beta_{pca}$$so$$ \beta_{ols}=T^{-1}\beta_{pca} $$ Debido a que de el primer paso, las magnitudes de los elementos en $T^{-1}$ son directamente comparables, y cada columna denota una combinación lineal de su $X$s. Usted está interesado en lo de las combinaciones lineales son los más relevantes, de modo que, por ejemplo, si una variable es la más importante, la $j^{th}$ columna de $T^{-1}$ tienen un elemento en el que es mucho mayor que el resto de los elementos, y se corresponden con el "más importante" de la variable en $X$.