Encontré una referencia en un artículo que dice así:
Según Tabachnick & Fidell (1996) las variables independientes con una correlación bivariada superior a .70 no deben incluirse en análisis de regresión múltiple.
Problema: He utilizado en un diseño de regresión múltiple 3 variables correlacionadas >.80, VIF's en torno a .2 - .3, Tolerancia ~ 4- 5. No puedo excluir ninguna de ellas (predictores importantes y resultado). Cuando hice la regresión del resultado sobre los 2 predictores que se correlacionaban a .80, ambos seguían siendo significativos, cada uno predecía varianzas importantes, y estas mismas dos variables tienen los mayores coeficientes de correlación parciales y semiparciales entre las 10 variables incluidas (5 controles).
Pregunta: ¿Es válido mi modelo a pesar de las altas correlaciones? Cualquier referencia será bienvenida.
Gracias por las respuestas.
No utilicé Tabachnick y Fidell como guía, encontré esta referencia en un artículo que trata de la alta colinealidad entre predictores.
Básicamente, tengo muy pocos casos para el número de predictores del modelo (muchas variables de control categóricas, con códigos ficticios: edad, titularidad, sexo, etc.): 13 variables para 72 casos. El índice de condición es de 29 con todos los controles y de 23 sin ellos (5 variables).
No puedo eliminar ninguna variable ni utilizar el análisis factorial para combinarlas porque teóricamente tienen sentido por sí solas. Es demasiado tarde para obtener más datos. Puesto que estoy realizando el análisis en SPSS quizá lo mejor sería encontrar una sintaxis para la regresión ridge (aunque no lo he hecho antes e interpretar los resultados sería nuevo para mí).
Si importa, cuando realicé la regresión por pasos, las mismas 2 variables altamente correlacionadas siguieron siendo los únicos predictores significativos del resultado.
Y sigo sin entender si las correlaciones parciales que son altas para cada una de estas variables importan como explicación de por qué las he mantenido en el modelo (en caso de que no se pueda realizar la regresión ridge).
¿Diría que "Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad / David A. Belsley, Edwin Kuh y Roy E. Welsch, 1980" sería útil para comprender la multicolinealidad? ¿O podrían ser útiles otras referencias?