5 votos

¿Cuál es la diferencia entre VIF y regresión por pasos?

¿Cuál es la diferencia entre el factor de inflación de la varianza (VIF) y la regresión por pasos, ya que ambos ayudan a detectar la multicolinealidad? ¿Qué variables difieren al aplicar ambas técnicas?

3voto

marquisdecarabas Puntos 591

El VIF y la regresión por pasos son dos cosas distintas. La regresión por pasos es un ejercicio de construcción de modelos, mientras que el cálculo del VIF es una herramienta de diagnóstico que se realiza después de la estimación para comprobar si hay multicolinealidad. Por lo tanto, no hay respuesta a la segunda parte de su pregunta ("¿Qué variables son diferentes al aplicar ambas técnicas?"), porque el VIF no es una técnica de construcción de modelos.

Con la regresión por pasos, se añaden (hacia delante) o eliminan (hacia atrás) variables del modelo y se observa cómo cambian las estimaciones. Normalmente, las variables se "expulsan" del modelo si los valores p no superan un determinado umbral preestablecido por el investigador (por ejemplo, si $p>0.10$ ).

VIF se realiza cuando ya tienen un modelo para trabajar. El cálculo del VIF es bastante sencillo. Dado el modelo:

$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 +\beta_3X_3 +\beta_4X_4 +\epsilon$

Puede calcular el VIF de la estimación de cada parámetro $i$ (por ejemplo $\hat\beta_1$ , $\hat\beta_2$ , $...$ , $\hat\beta_i$ ) mediante la fórmula $VIF_i = 1/(1-R_i^2)$ donde $R_i^2$ es el $R^2$ de un modelo que predice $X_i$ utilizando todas las demás covariables como predictores, por ejemplo,

$X_1 = \delta_0 + \delta_2X_2 +\delta_3X_3 +\delta_4X_4 +\nu$

1voto

Sean Hanley Puntos 2428

En realidad no son tan parecidos. La regresión escalonada es una técnica para encontrar un subconjunto de variables útiles para predecir una respuesta. Es una estrategia muy antigua e intuitiva. Por desgracia, no es tan buena como parece (véase aquí ). Además, no sirve para detectar la multicolinealidad.

El factor de inflación de la varianza puede utilizarse para evaluar la multicolinealidad. La multicolinealidad se refiere al hecho de que las variables predictoras están correlacionadas. Cuando sólo dos variables son colineales, es fácil verlo. Pero la colinealidad puede existir entre varias variables (de ahí "multi-"), lo que es más difícil de detectar. Si realizáramos una regresión múltiple en la que una de las variables X fuera la respuesta y las demás variables X se tomaran como predictores, esperaríamos encontrar un múltiplo de $R^2=0$ . Eso significaría que no están correlacionados en absoluto. Sin embargo, esto es muy poco frecuente en los datos de observación. Como el $R^2_j$ para cada una de sus variables aumenta, el grado de multicolinealidad aumenta. Esto hará que sus errores estándar sean mayores de lo que habrían sido (si sus variables X hubieran estado perfectamente descorrelacionadas). Para averiguar cuánto mayor es la varianza de la distribución de muestreo para las variables $j^{\rm th}$ variable es, puede comprobar el VIF. El VIF se calcula así:
$$ {\rm VIF} = \frac{1}{1-R^2_j} $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X