Estaba leyendo la regresión múltiple en el capítulo de Análisis de Datos y Gráficos con R: Un Ejemplo Basado en el Enfoque y era un poco confuso para descubrir que se recomienda la comprobación de las relaciones lineales entre las variables explicativas (utilizando un diagrama de dispersión) y, en caso de que no existan, la transformación de lo que ellos hacen ser más relacionadas linealmente. Aquí hay algunos extractos de este:
6.3 Una estrategia para el ajuste de modelos de regresión múltiple
(...)
Examinar el diagrama de dispersión de la matriz participación de todos las variables explicativas. (Incluyendo la variable dependiente es, en este punto, opcional.) Buscar en primer lugar la evidencia de la no-linealidad en las parcelas de variables explicativas el uno contra el otro.
(...)
Este punto se identifica un modelo de estrategia de búsqueda - buscar modelos en los que la regresión de las relaciones entre las variables explicativas seguir un "simple" forma lineal. Por lo tanto, si algunos pares de parcelas muestran evidencia de no linealidad, se considera que el uso de la transformación(s) para dar más cerca de relaciones lineales. Mientras que puede no necesariamente ser posible, siguiendo esta estrategia, de manera adecuada el modelo de la regresión de la relación, esta es una buena estrategia, por las razones que se indican a continuación, para seguir en el inicio de la búsqueda.
(...)
Si las relaciones entre las variables explicativas son aproximadamente lineales, tal vez después de la transformación, es posible interpretar las parcelas de las variables predictoras en contra de la variable de respuesta con confianza.
(...)
Puede que no sea posible encontrar las transformaciones de una o más de las variables explicativas que garantizar la la (pares), las relaciones que se muestra en los paneles que aparecen lineal. Esto puede crear problemas tanto para la interpretación de los gráficos de diagnóstico para cualquier equipada ecuación de regresión de y para la interpretación de los coeficientes en el amueblada ecuación. Véase Cook y Weisberg(1999).
¿No debería estar preocupado acerca de las relaciones lineales entre las variables dependientes (debido al riesgo de multicolinealidad) en lugar de buscar activamente? ¿Cuáles son las ventajas de tener aproximadamente de forma lineal las variables relacionadas?
Los autores no abordar el problema de la multicolinealidad más adelante en el capítulo, pero estas recomendaciones parecen estar en desacuerdo con evitar la multicolinealidad.