10 votos

Relación lineal entre las variables explicativas en la regresión múltiple

Estaba leyendo la regresión múltiple en el capítulo de Análisis de Datos y Gráficos con R: Un Ejemplo Basado en el Enfoque y era un poco confuso para descubrir que se recomienda la comprobación de las relaciones lineales entre las variables explicativas (utilizando un diagrama de dispersión) y, en caso de que no existan, la transformación de lo que ellos hacen ser más relacionadas linealmente. Aquí hay algunos extractos de este:

6.3 Una estrategia para el ajuste de modelos de regresión múltiple

(...)

Examinar el diagrama de dispersión de la matriz participación de todos las variables explicativas. (Incluyendo la variable dependiente es, en este punto, opcional.) Buscar en primer lugar la evidencia de la no-linealidad en las parcelas de variables explicativas el uno contra el otro.

(...)

Este punto se identifica un modelo de estrategia de búsqueda - buscar modelos en los que la regresión de las relaciones entre las variables explicativas seguir un "simple" forma lineal. Por lo tanto, si algunos pares de parcelas muestran evidencia de no linealidad, se considera que el uso de la transformación(s) para dar más cerca de relaciones lineales. Mientras que puede no necesariamente ser posible, siguiendo esta estrategia, de manera adecuada el modelo de la regresión de la relación, esta es una buena estrategia, por las razones que se indican a continuación, para seguir en el inicio de la búsqueda.

(...)

Si las relaciones entre las variables explicativas son aproximadamente lineales, tal vez después de la transformación, es posible interpretar las parcelas de las variables predictoras en contra de la variable de respuesta con confianza.

(...)

Puede que no sea posible encontrar las transformaciones de una o más de las variables explicativas que garantizar la la (pares), las relaciones que se muestra en los paneles que aparecen lineal. Esto puede crear problemas tanto para la interpretación de los gráficos de diagnóstico para cualquier equipada ecuación de regresión de y para la interpretación de los coeficientes en el amueblada ecuación. Véase Cook y Weisberg(1999).

¿No debería estar preocupado acerca de las relaciones lineales entre las variables dependientes (debido al riesgo de multicolinealidad) en lugar de buscar activamente? ¿Cuáles son las ventajas de tener aproximadamente de forma lineal las variables relacionadas?

Los autores no abordar el problema de la multicolinealidad más adelante en el capítulo, pero estas recomendaciones parecen estar en desacuerdo con evitar la multicolinealidad.

8voto

Zizzencs Puntos 1358

Hay dos puntos aquí:

  1. El pasaje recomienda la transformación de IVs a la linealidad sólo cuando existe evidencia de no linealidad. Las relaciones no lineales entre los IVs también puede causar la colinealidad y, más concretamente, puede complicar otras relaciones. Yo no estoy seguro de estar de acuerdo con los consejos del libro, pero no es tonto.

  2. Sin duda muy fuertes relaciones lineales pueden ser las causas de la colinealidad, pero las altas correlaciones no son ni necesarios ni suficientes para causar la problemática de la colinealidad. Un buen método de diagnóstico de colinealidad es el índice de condición.

EDICIÓN en respuesta a comentario

La condición de los índices se describen brevemente aquí como "raíz cuadrada del máximo autovalor dividido por el mínimo autovalor". Hay muy pocos puestos aquí en la CV que hablar de ellos y de sus méritos. Los textos seminales sobre ellos son dos libros de David Belsley: Acondicionamiento de diagnósticos y Diagnósticos de Regresión (que tiene una nueva edición, 2005).

3voto

iivel Puntos 211

Lineal de las relaciones entre cada una de las variables explicativas y la variable dependiente se asegurará también lineal de las relaciones entre las variables explicativas. La inversa no es verdadera.

Es cierto que la transformación de la(s) diseñado para dar aproximado linealidad aumentará la colinealidad. En ausencia de dicha transformación(s), sin embargo, la colinealidad es oculto. Insistir en mantener la collinearlity lo oculto puede resultar en una complicada y uninterpretable ecuación de regresión, en el que una simple forma de ecuación está disponible.

Supongamos que y está cerca de una función lineal de la log(x1), en un caso donde x rangos de valores que difieren por un factor de 10 o más. Entonces si x es utilizado como un regresor, otras variables explicativas se si es del todo posible ser invocada para dar cuenta de la no linealidad en la relación con x1. El resultado puede ser muy complicado de regresión de la relación, con uninterpretable coeficientes, en lugar de una simple forma de la ecuación de regresión que captura todos los disponibles poder explicativo.

Las extrañas consecuencias que pueden derivarse de la imposibilidad de encontrar y trabajar con linealmente relacionada con las variables están bien ilustrados en el reciente documento que reivindica una feminidad de huracán nombre del efecto en los datos sobre las muertes de 94 Atlántica de huracanes que tocaron tierra en los EE.UU. más de 1950-2012. Ver http://www.pnas.org/content/111/24/8782.abstract. Los datos están disponibles como parte de la información complementaria. Tenga en cuenta que el trabajo con log(deaths) y el uso normaL de la teoría del modelo lineal (R función del lm()) es aproximadamente equivalente a Jung et al uso de un modelo de regresión binomial negativa.

Si uno retrocede log(E[deaths]) a log(NDAM), no hay nada a la izquierda para el mínimo de presión variable, la feminidad de la variable, y de las interacciones, para explicar. La variable log(NDAM), no NDAM, aparece en un diagrama de dispersión de la matriz como se relaciona linealmente con el mínimo de presión variable. Su distribución es también mucho menos sesgado, mucho más cerca simétrica.

Jung et al regresión log(E[deaths]) a NDAM (normalizada de los daños), además de las otras variables y las interacciones. La ecuación que entonces surgió fue utilizado para contar una historia en la que la feminidad del nombre tiene un gran efecto.

A ver lo extraño que es el uso de NDAM como variable explicativa en una regresión donde la variable de resultado es log(E[deaths]), parcela log(deaths+0.5) o log(deaths+1) contra NDAM. A continuación, repita la parcela con log(NDAM) en lugar de NDAM. El contraste es aún más llamativo si se Katrina y Audrey, que Jung et al omite como valores atípicos, se incluyen en la trama. Por insistir en el uso de NDAM como la variable explicativa, en lugar de log(NDAM), Jung et al pasar la oportunidad de encontrar una forma muy simple de regresión de la relación.

NB que E[deaths] es el número de muertes predichos por el modelo.

En el Jung et al datos, las transformaciones necesarias pueden ser identificados a partir de un diagrama de dispersión de la matriz de todas las variables. Pruebe tal vez la función de R spm() en la última versión de el coche paquete de R, transform=TRUE y, deaths como una variable) family="yjPower". O experimento con las transformaciones sugeridas por un primer diagrama de dispersión de la matriz. En general, el preferido de asesoramiento puede ser buscar en primer lugar las variables explicativas que satisfacer los predictores lineales requisito, a continuación, asistir a la variable de resultado, tal vez usando el coche de función invTranPlot().

Ver, además de en el Análisis de Datos y Gráficos con R" que se hace referencia en la pregunta:

  • Weisberg: Se Aplica La Regresión Lineal. 4ª ed, Wiley 2014, págs. 185-203.
  • Fox y Weisberg: Una R Compañero de la aplicación de la Regresión. 2da ed, Salvia, 2011, págs. 127-148.

1voto

Chris Cudmore Puntos 634

Me parece todo este pasaje críptica si no francamente cuestionable. Idealmente, usted quiere que sus variables independientes a ser como la no correlación posible el uno del otro, así como para proporcionar incremental y la información adicional a la modelo en la estimación de la variable dependiente. Se plantean el problema de la multicolinealidad a través de una alta correlación entre las variables independientes, y que son perfectamente derecho a plantear la cuestión en esta circunstancia.

Es más crítico para examinar el diagrama de dispersión y relacionados con la relación lineal entre cada una de las variables independientes y la variable dependiente, pero no entre las variables independientes. Cuando se mira en tales diagramas de dispersión (independiente en el eje X y dependiente en el eje-Y) en el momento en que puede haber oportunidades para transformar la variable independiente para observar un mejor ajuste si es a través de un registro, un exponente, o polinomio de la forma.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X