26 votos

¿Cómo tratar la alta correlación entre predictores en la regresión múltiple?

Encontré una referencia en un artículo que dice así:

Según Tabachnick & Fidell (1996) las variables independientes con una correlación bivariada superior a .70 no deben incluirse en análisis de regresión múltiple.

Problema: He utilizado en un diseño de regresión múltiple 3 variables correlacionadas >.80, VIF's en torno a .2 - .3, Tolerancia ~ 4- 5. No puedo excluir ninguna de ellas (predictores importantes y resultado). Cuando hice la regresión del resultado sobre los 2 predictores que se correlacionaban a .80, ambos seguían siendo significativos, cada uno predecía varianzas importantes, y estas mismas dos variables tienen los mayores coeficientes de correlación parciales y semiparciales entre las 10 variables incluidas (5 controles).

Pregunta: ¿Es válido mi modelo a pesar de las altas correlaciones? Cualquier referencia será bienvenida.


Gracias por las respuestas.

No utilicé Tabachnick y Fidell como guía, encontré esta referencia en un artículo que trata de la alta colinealidad entre predictores.

Básicamente, tengo muy pocos casos para el número de predictores del modelo (muchas variables de control categóricas, con códigos ficticios: edad, titularidad, sexo, etc.): 13 variables para 72 casos. El índice de condición es de 29 con todos los controles y de 23 sin ellos (5 variables).

No puedo eliminar ninguna variable ni utilizar el análisis factorial para combinarlas porque teóricamente tienen sentido por sí solas. Es demasiado tarde para obtener más datos. Puesto que estoy realizando el análisis en SPSS quizá lo mejor sería encontrar una sintaxis para la regresión ridge (aunque no lo he hecho antes e interpretar los resultados sería nuevo para mí).

Si importa, cuando realicé la regresión por pasos, las mismas 2 variables altamente correlacionadas siguieron siendo los únicos predictores significativos del resultado.

Y sigo sin entender si las correlaciones parciales que son altas para cada una de estas variables importan como explicación de por qué las he mantenido en el modelo (en caso de que no se pueda realizar la regresión ridge).

¿Diría que "Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad / David A. Belsley, Edwin Kuh y Roy E. Welsch, 1980" sería útil para comprender la multicolinealidad? ¿O podrían ser útiles otras referencias?

30voto

Zizzencs Puntos 1358

El problema clave no es la correlación, sino la colinealidad (véanse los trabajos de Belsley, por ejemplo). Esto se comprueba mejor utilizando índices de condición (disponibles en R , SAS y probablemente también otros programas. La correlación no es una condición necesaria ni suficiente para la colinealidad. Los índices de condición superiores a 10 (según Belsley) indican una colinealidad moderada, y los superiores a 30, grave, pero también depende de qué variables estén implicadas en la colinealidad.

Si encuentra una alta colinealidad, significa que las estimaciones de sus parámetros son inestables. Es decir, pequeños cambios (a veces en la cuarta cifra significativa) en los datos pueden provocar grandes cambios en las estimaciones de los parámetros (a veces incluso invirtiendo su signo). Esto es malo.

Los remedios son

  1. Obtener más datos
  2. Eliminación de una variable
  3. Combinar las variables (por ejemplo, con mínimos cuadrados parciales) y
  4. Realizar una regresión ridge, que da resultados sesgados pero reduce la varianza de las estimaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X