4 votos

Regresión multilineal

El siguiente código se ajusta a varios modelos de regresión lineal y produce los coeficientes de que no sé bien de dónde vienen.

n <- 10000         # use large sample size to get precise estimates
x1 <- rnorm(n, 0, 1) #generated 10000 random numbers, mean =0, sd =1
x2 <- x1 + rnorm(n, 0, 0.1) #error random numbers, mean =0, sd =0.1
y <- 2 * x1 - x2 + rnorm(n, 0, 1)
x3 <- y + rnorm(n, 0, 1)

# Fit different regression models:
coef(lm(y ~ x1))           # beta1=1 
coef(lm(y ~ x2))           # beta2=1 
coef(lm(y ~ x3))           # beta3=2/3
coef(lm(y ~ x1 + x2))      # beta1=2, beta2=-1
coef(lm(y ~ x1 + x2 + x3)) # beta1=1, beta2=-1/2, beta3=1/2

La beta3 es de 2/3, ¿por qué? Puede alguien explícitamente me muestra el proceso de cálculo?

El propósito de este ejercicio es mostrar que $\beta_k$ es el "efecto" de $x_k$ en Y cuando todas las otras variables en el modelo se mantienen constantes. Este "efecto" debería no ser interpretado como un efecto causal. Cuando se comparan dos observaciones i y j, donde: $x_{ik} = x_{jk} + 1$ (es decir, los valores de $x_k$ difieren por uno) y $x_{ir} = x_{jr}$ para todos los otros $r$ $\{1,..,p\}$ (es decir, los valores de todas las demás variables $x_r$ son idénticas), a continuación,$E(Y_i) = E(Y_j) + \beta_k$.

Yo no entiendo el propósito de este ejemplo a la perfección, me pregunto cuál de cálculo que está detrás de los 2/3 del valor

3voto

user2735206 Puntos 51

Imagine que los datos se representan con $y$ en el eje de las y y $x3$ en el eje x. El rnorm() plazo en "x3 <- y + rnorm(n, 0, 1)" frotis del punto de datos horizontalmente a la izquierda y a la derecha.

Recordando que la pendiente, $\beta_1$, se calcula por:

$$\beta_1 = \frac{\Sigma(x_i - \bar{x})(y_i - \bar{y})}{\Sigma(x_i - \bar{x})^2}$$

Holding $y_i$ unchanged, the more extreme the individual point, $x_i$, hacia fuera, el denominador sería más rápido que el numerador sería, por tanto, como marcar la SD en el "rnorm()", la beta se mueve más cerca de 0. Por ejemplo, tratar de "rnorm(n, 0, 0.1)" y "rnorm(n, 0, 10)" y compruébelo usted mismo.


O más explícitamente, ¿por qué es 2 en el numerador y 3 en la denominador?

La parte superior puede ser percibido como una función de la covarianza de $y$ $x3$ (sans la división por (n-1) de la parte, pero la relación no está cambiando aquí), y el denominador puede ser percibido como la varianza de la $x3$ solo. Probar:

n <- 10000      
x1 <- rnorm(n, 0, 1)
x2 <- x1 + rnorm(n, 0, 0.1) 
y <- 2 * x1 - x2 + rnorm(n, 0, 1)
x3 <- y + rnorm(n, 0, 1)

cov(x3,y)
var(x3)

A continuación, debería ver:

> cov(x3,y)
[1] 1.964835
> var(x3)
[1] 2.966569

Que es aproximadamente 2/3.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X