Regresión multilineal

Question

Regresión multilineal

Preguntado el 8 de Agosto, 2018: Cuando se hizo la pregunta
252 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

El siguiente código se ajusta a varios modelos de regresión lineal y produce los coeficientes de que no sé bien de dónde vienen.

n <- 10000         # use large sample size to get precise estimates
x1 <- rnorm(n, 0, 1) #generated 10000 random numbers, mean =0, sd =1
x2 <- x1 + rnorm(n, 0, 0.1) #error random numbers, mean =0, sd =0.1
y <- 2 * x1 - x2 + rnorm(n, 0, 1)
x3 <- y + rnorm(n, 0, 1)

# Fit different regression models:
coef(lm(y ~ x1))           # beta1=1 
coef(lm(y ~ x2))           # beta2=1 
coef(lm(y ~ x3))           # beta3=2/3
coef(lm(y ~ x1 + x2))      # beta1=2, beta2=-1
coef(lm(y ~ x1 + x2 + x3)) # beta1=1, beta2=-1/2, beta3=1/2

La beta3 es de 2/3, ¿por qué? Puede alguien explícitamente me muestra el proceso de cálculo?

El propósito de este ejercicio es mostrar que $\beta_k$ es el "efecto" de $x_k$ en Y cuando todas las otras variables en el modelo se mantienen constantes. Este "efecto" debería no ser interpretado como un efecto causal. Cuando se comparan dos observaciones i y j, donde: $x_{ik} = x_{jk} + 1$ (es decir, los valores de $x_k$ difieren por uno) y $x_{ir} = x_{jr}$ para todos los otros $r$ $\{1,..,p\}$ (es decir, los valores de todas las demás variables $x_r$ son idénticas), a continuación,$E(Y_i) = E(Y_j) + \beta_k$.

Yo no entiendo el propósito de este ejemplo a la perfección, me pregunto cuál de cálculo que está detrás de los 2/3 del valor

Preguntado el 8 de Agosto, 2018 por Fabien Snauwaert

Answer 1

1 Respuestas

Answer 2

3voto

user2735206 Puntos 51

Imagine que los datos se representan con $y$ en el eje de las y y $x3$ en el eje x. El rnorm() plazo en "x3 <- y + rnorm(n, 0, 1)" frotis del punto de datos horizontalmente a la izquierda y a la derecha.

Recordando que la pendiente, $\beta_1$, se calcula por:

$$\beta_1 = \frac{\Sigma(x_i - \bar{x})(y_i - \bar{y})}{\Sigma(x_i - \bar{x})^2}$$

Holding $y_i$ unchanged, the more extreme the individual point, $x_i$, hacia fuera, el denominador sería más rápido que el numerador sería, por tanto, como marcar la SD en el "rnorm()", la beta se mueve más cerca de 0. Por ejemplo, tratar de "rnorm(n, 0, 0.1)" y "rnorm(n, 0, 10)" y compruébelo usted mismo.

O más explícitamente, ¿por qué es 2 en el numerador y 3 en la denominador?

La parte superior puede ser percibido como una función de la covarianza de $y$ $x3$ (sans la división por (n-1) de la parte, pero la relación no está cambiando aquí), y el denominador puede ser percibido como la varianza de la $x3$ solo. Probar:

n <- 10000      
x1 <- rnorm(n, 0, 1)
x2 <- x1 + rnorm(n, 0, 0.1) 
y <- 2 * x1 - x2 + rnorm(n, 0, 1)
x3 <- y + rnorm(n, 0, 1)

cov(x3,y)
var(x3)

A continuación, debería ver:

> cov(x3,y)
[1] 1.964835
> var(x3)
[1] 2.966569

Que es aproximadamente 2/3.

Respondido el 8 de Agosto, 2018 por user2735206 (51 Puntos )

Regresión multilineal

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Regresión multilineal

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: