6 votos

Regresión con variables explicativas correlacionadas

He variables del siguiente tipo (codificado en R):

set.seed(2)
dependent.variable = rnorm(12)
exp1 = c(1,3,4,8,3,4,1,5,6,6,7,9)
exp2 = c(1,3,6,2,1,1,3,4,6,4,1,1)
exp3 = exp1*exp2

mis tres variables explicativas están relacionados por una ecuación del tipo: $exp1 = \frac{exp3}{exp2}$. Para mi real las variables de la relación podría ser un poco más complejo y no he averiguado la ecuación todavía.

Quiero saber si alguna de estas tres variables influyen dependent.variable. ¿Tiene sentido?

Puedo simplemente ejecutar:

lm(dependent.variable~exp1*exp2*exp3)

o

lm(dependent.variable~poly(exp1,2,raw=T)*poly(exp2,2,raw=T)*poly(exp3,2,raw=T))

sin preocuparse por el hecho de que las variables explicativas no son independientes? Si no, ¿qué debo hacer?

Muchas gracias!

2voto

jasonmray Puntos 1303

En el ejemplo que usted da no tendría ningún sentido hablar de sólo dos de las variables explicativas ($x_1$, $x_2$) que influyen en la variable dependiente ($y$), mientras que la tercera ($x_3$) se deriva de ellos. Por ejemplo, el modelo lineal con las interacciones, la equipada con el valor de $y$ está dado por

$$\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \beta_{12} x_1 x_2 + \beta_{13} x_1 x_3 + \beta_{23} x_2 x_3 $$

donde $\beta$ son los coeficientes que queremos estimar. Por ejemplo, la sustitución de $x_3 = x_1 x_2$ da

$$\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_1 x_2 + \beta_{12} x_1 x_2 + \beta_{13} x_1^2 x_2 + \beta_{23} x_1 x_2^2 $$

así $\beta_3$ & $\beta_{12}$ son los coeficientes para el mismo período, y no se puede estimar por separado. Usted podría encajar

$$\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{3}^* x_3 + \beta_{13} x_1 x_3 + \beta_{23} x_2 x_3 $$

si este modelo es de interés; y la multicolinealidad es meramente estructural. (Tenga en cuenta sin embargo, que las fuerzas de la relación de la variable dependiente para ambos $x_1$ & $x_2$ ser lineal al $x_3=0$.)

En general, si una variable explicativa es una función de las otras variables explicativas es más sencillo de omitirlo—siempre se puede reescribir el modelo ajustado para ponerlo de nuevo. Por supuesto, no hay garantía de que la variable dependiente está bien equipado por un simple modelo aditivo.

Pero cuando usted dice que se midieron tres variables correlacionadas se me hace dudar de que la correlación es perfecta, como en tu ejemplo. Si no lo es, hay un montón de preguntas en este sitio acerca de cómo evaluar los efectos de la multicolinealidad y cómo lidiar con ella, y el "multicolinealidad" etiqueta le ayudará a encontrarlos.

1voto

Brandon Puntos 1968

Si usted tiene algún conocimiento de una hipotética relación (por ejemplo, de la literatura), entonces usted podría estar interesado en mirar a la no lineal, así como los modelos de regresión lineal. De pie sobre los hombros de aquellos que han trabajado en esto antes de que usted puede dar a usted una gran visión.

Si usted es el contenido se limite al aditivo de los modelos de regresión lineal, entonces le sugiero que comience con dos variables independientes y su interacción:

lm(dependent.variable ~ exp1 + exp2 + exp1:exp2)

Si hay signos de no-linealidad en esta relación, puede que desee explorar la naturaleza de la no-linealidad con un modelo aditivo generalizado.

library(mgcv)
gam(dependent.variable ~ s(exp1) + s(exp2) + s(exp3))

Tenga en cuenta que esta última línea de código te dará un error en R con su conjunto de datos de ejemplo porque hay tan pocas observaciones. Si aparece el mismo error con su conjunto completo de datos, utilice el argumento k= en la s() función para limitar los grados de libertad utilizados en cada suave.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X