21 votos

¿Agregar más variables en un multivariable de regresión coeficientes de cambio de las variables existentes?

Decir que tengo un multivariable (varias variables independientes) de regresión que consta de 3 variables. Cada una de estas variables tiene un determinado coeficiente. Si me decido a introducir un 4 de variable y vuelva a ejecutar la regresión, los coeficientes de las 3 variables originales cambiar?

Más ampliamente: en un multivariable (múltiples variables independientes) de regresión, es el coeficiente de una variable influida por el coeficiente de otra variable?

32voto

Sean Hanley Puntos 2428

Una estimación del parámetro en un modelo de regresión (por ejemplo, $\hat\beta_i$) va a cambiar si una variable, $X_j$, se agrega a la modelo que es:

  1. correlacionada con la del parámetro de la variable correspondiente, $X_i$ (que ya estaba en el modelo), y
  2. correlacionada con la variable de respuesta, $Y$

Se estima que la beta no va a cambiar cuando una nueva variable a la que se añade, si cualquiera de los de arriba no están correlacionados. Tenga en cuenta que si ellos no están correlacionadas en la población (es decir, $\rho_{(X_i, X_j)}=0$, o $\rho_{(X_j, Y)}=0$) es irrelevante. Lo que importa es que tanto la muestra correlaciones son exactamente $0$. En esencia, esto nunca será el caso en la práctica a menos que se trabaje con datos experimentales, donde las variables fueron manipulados de tal manera que ellos no están correlacionados por diseño.

Tenga en cuenta también que la cantidad de los parámetros de cambio puede no ser muy significativo (que depende, al menos en parte, en su teoría). Por otra parte, la cantidad que puede cambiar es una función de las magnitudes de las dos correlaciones por encima.

En una nota diferente, realmente no es correcto pensar de este fenómeno como "el coeficiente de una variable dada [ser] influenciado por el coeficiente de otra variable". No se trata de las betas que se influencian unos a otros. Este fenómeno es un resultado natural del algoritmo de software estadístico utiliza para calcular la pendiente de los parámetros. Imagine una situación en la $Y$ es causada tanto por $X_i$$X_j$, que a su vez están correlacionadas entre sí. Si sólo $X_i$ está en el modelo, parte de la variación en $Y$ que es debido a $X_j$ será inapropiada atribuido a $X_i$. Esto significa que el valor de $X_i$ es sesgada; esto se llama el sesgo de variable omitida.

3voto

Zizzencs Puntos 1358

Es matemáticamente posible que los coeficientes no va a cambiar, pero es raro que no habrá ningún cambio en absoluto con los datos reales, incluso si todas las variables independientes son independientes el uno del otro. Pero, cuando este es el caso, los cambios (salvo en la intercepción) tiende a 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

En el mundo real, sin embargo, las variables independientes son a menudo relacionados entre sí. En este caso, la adición de un 4º variable a la ecuación de cambio de los otros coeficientes, a veces por mucho.

Luego están las posibles interacciones.... pero esa es otra cuestión.

3voto

AdamSane Puntos 1825

En términos generales, sí, la adición de una variable a los cambios de los anteriores coeficientes, casi siempre.

De hecho, esta es la causa de los Simpson de la paradoja, donde los coeficientes puede cambiar, incluso revertir el signo, porque omite las covariables.

Para que esto no suceda, es necesario que las nuevas variables fueron ortogonal a la de los anteriores. Esto sucede a menudo en los experimentos diseñados, pero es muy poco probable que suceda en los datos donde el patrón de las variables independientes es no planeado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X