El siguiente código se ajusta a varios modelos de regresión lineal y produce los coeficientes de que no sé bien de dónde vienen.
n <- 10000 # use large sample size to get precise estimates
x1 <- rnorm(n, 0, 1) #generated 10000 random numbers, mean =0, sd =1
x2 <- x1 + rnorm(n, 0, 0.1) #error random numbers, mean =0, sd =0.1
y <- 2 * x1 - x2 + rnorm(n, 0, 1)
x3 <- y + rnorm(n, 0, 1)
# Fit different regression models:
coef(lm(y ~ x1)) # beta1=1
coef(lm(y ~ x2)) # beta2=1
coef(lm(y ~ x3)) # beta3=2/3
coef(lm(y ~ x1 + x2)) # beta1=2, beta2=-1
coef(lm(y ~ x1 + x2 + x3)) # beta1=1, beta2=-1/2, beta3=1/2
La beta3 es de 2/3, ¿por qué? Puede alguien explícitamente me muestra el proceso de cálculo?
El propósito de este ejercicio es mostrar que $\beta_k$ es el "efecto" de $x_k$ en Y cuando todas las otras variables en el modelo se mantienen constantes. Este "efecto" debería no ser interpretado como un efecto causal. Cuando se comparan dos observaciones i y j, donde: $x_{ik} = x_{jk} + 1$ (es decir, los valores de $x_k$ difieren por uno) y $x_{ir} = x_{jr}$ para todos los otros $r$ $\{1,..,p\}$ (es decir, los valores de todas las demás variables $x_r$ son idénticas), a continuación,$E(Y_i) = E(Y_j) + \beta_k$.
Yo no entiendo el propósito de este ejemplo a la perfección, me pregunto cuál de cálculo que está detrás de los 2/3 del valor