5 votos

¿Cómo extraer la dependencia de una sola variable cuando las variables independientes están correlacionadas?

Tengo un conjunto de datos en la que tengo que medir una variable dependiente (vamos a llamar a $Y$) junto con varias variables independientes $(X_1, X_2, X_3)$. Las variables independientes están correlacionadas con el uno al otro hasta cierto punto. Me gustaría entender cómo $Y$ varía con $X_2$ al $X_1$ $X_3$ se mantienen constantes. Cuál es la estrategia que me va a permitir extraer esta relación, dada la correlación entre las variables independientes?

He mirado en el análisis de componentes principales, pero que proyecta los datos en términos de combinaciones lineales que incluyen $X_2$, por lo tanto no separar la $X_2$ dependencia.

Un ejemplo de conjunto de datos (formato csv).

7voto

user31634 Puntos 16

Aksakal la respuesta es correcta. Mediante el control de todas las variables en una regresión, "mantenerlos constante" y que son capaces de identificar la correlación parcial entre el regresor de interés. Permítanme darles un ejemplo para hacer esto más claro.

En primer lugar, vamos a crear algunos correlaciona $X$s.

 ex <- rnorm(1000)
 x1 <- 5*ex + rnorm(1000)
 x2 <- -3*ex + rnorm(1000)
 x3 <- 4*ex + rnorm(1000)

Ahora, ya que todas estas variables son generados por algunos variable subyacente $ex$, están claramente correlacionados. Usted puede verificar esto usando cor(x1,x2), por ejemplo.

Ahora, vamos a generar la variable dependiente con los conocidos parámetros.

 y <- 1*x1 + 2*x2 + 3*x3 + rnorm(1000)

Aquí sabemos que $\beta_1=1, \beta_2=2, \beta_3=3$. He elegido arbitrariamente. Vamos ahora a ver si Aksakal del enfoque puede descubrir estos parámetros:

 lm(y ~ x1+x2+x3)

Si funciona, la estimación de los parámetros deben ser cercanos a los que hemos elegido. Aquí el resultado:

 Call:
 lm(formula = y ~ x1 + x2 + x3)

 Coefficients:
 (Intercept)           x1           x2           x3  
    -0.01224      0.99805      1.99746      2.99670  

Como se puede ver, todos los parámetros han sido descubiertos.

Habiendo dicho eso, hay muchas advertencias que participan aquí, así. Lo que es más importante, no se debe interpretar estos coeficientes en una causal manera. Dependiendo de su situación actual, sería de ayuda si puedes explicar un poco más lo que estamos tratando de estimar de manera que la gente pueda evaluar si el método es apropiado (o si la contestación de su pregunta de investigación es factible). Por ejemplo, ¿por qué crees que tu variables independientes están correlacionadas? Es que $X_1$ podría tener un efecto en $X_2$ y esto tiene un efecto en $y$? Si esta es la configuración que tienes en mente, a continuación, dependiendo de su campo, puede que desee ver en el mediador o moderador de análisis o en cuasi-experimentales de los métodos. Por lo tanto, usted ve que usted puede beneficiarse de elaborar un poco más sobre su situación.

4voto

Aksakal Puntos 11351

La regresión de Y sobre X, beta de X2 será lo que usted está buscando.

ACTUALIZACIÓN:

Voy a añadir a mi respuesta sobre la base del debate después de mi post original.

Considere la posibilidad de $y=f(x_1,x_2,x_3)$, cualquier función suave. Parece que usted está buscando para la sensibilidad de $y$$x_2$. Esta es capturado por la derivada parcial $\partial y/\partial x_2$. Para ver esto ayuda a mirar la expansión de Taylor: $y(x+\Delta x)=y(x)+\partial y/\partial x_1 \Delta x_1+\partial y/\partial x_2 \Delta x_2+\partial y/\partial x_3 \Delta x_3+\partial^2 y/\partial x_1^2 (\Delta x_1)^2+\partial^2 y/(\partial x_1 \partial x_2) \Delta x_1 \Delta x_2+...$.

Nota, cómo los términos de interacción son de segundo orden en $\Delta$'s. Por lo tanto, si usted está interesado en los efectos de primer orden, entonces usted está buscando para $\partial f/\partial x_2$, es decir, el $\beta_{X_2}$ en su regresión. También tenga en cuenta, que esto no preculde que a partir de la adición de los términos de interacción en la regresión como $X_2*X_3$ o $X_1*X_2*X_3$. Estos están bien, pero usted no necesita sus coeficientes para responder a su pregunta. Al agregar los términos de interacción, por supuesto, su $\beta_{X_2}$ va a cambiar, pero su interpretación no.

2voto

ThomasKlausch Puntos 968

Primaria a su preocupación debe ser la de si el modelo de $Y$ todos los $X$ es correcta. Si es correcto, el $\beta$ $X_2$ es el efecto del coeficiente que usted está buscando. Tener en cuenta que no puede ser no-lineal de las tendencias en cualquier $X$ con $Y$, $Y$ no puede ser normal (en cuyo caso se necesita un gran ejemplo), y puede haber interacciones entre cualquier $X$.

En efecto particular hetorogeneity es un problema que puede afectar su $\beta$ estimaciones. Usted debe ser capaz de modelo, sin embargo, al incluir términos de interacción de $X_2$ con el otro $X$ en el modelo. Cuando hay significnat interacciones incluidas en el modelo, se obtendrán mejores (es decir, imparcial) las estimaciones del efecto promedio de $X_2$$Y$.

Por otra parte, si usted está en la situación de un caso-control o de un estudio observacional como un cuasi - o natural-experimento, que me tome de uno de tus comentarios anteriores, $X_2$ es en realidad dicotómica que indica tratamiento o de control. A continuación, hay una serie de otros enfoques para la inferencia válida sobre el efecto medio del tratamiento de $X_2$$Y$. Por ejemplo, usted podría coincidir con el tratamiento y las unidades de control indicado por $X_2$ condicional en el otro $X$, por medio de la coincidencia de los algoritmos y los puntajes de propensión. Si usted está realmente en la situación de un estudio caso-control o una variable binaria $X_2$ la literatura sobre la inferencia causal ofrece estos y otros métodos.

Una, la correcta-modelo de regresión del tipo discutido anteriormente también proporcionar una correcta treamtent estimación. Sin embargo, puede ser errónea cuando sus supuestos básicos (por ejemplo, la linealidad, la homoscedasticity, el efecto de la homogeneidad, etc.) son violados.

Tengo una vez analizado el uso de modelos de regresión para la estimación de la media de los efectos del tratamiento de los estudios observacionales aquí

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X