Porque la pregunta que aparece a preguntar acerca de los datos , mientras que los comentarios de hablar acerca de las variables aleatorias, basada en datos respuesta parece que vale la pena presentar.
Vamos a generar un pequeño conjunto de datos. (Más tarde, usted puede cambiar esto a un enorme conjunto de datos si lo desea, simplemente para confirmar que los fenómenos que se muestra a continuación no dependen del tamaño del conjunto de datos.) Para empezar, vamos a una de las variables independientes $x_1$ ser una simple secuencia $1,2,\ldots,n$. Para obtener otra variable independiente $x_2$, con una fuerte correlación positiva, sólo perturban los valores de $x_1$ arriba y abajo un poco. Aquí, me alternativamente restar y agregar $1$. Ayuda a cambiar la escala de $x_2$, así que vamos a reducir a la mitad. Por último, vamos a ver lo que sucede cuando creamos una variable dependiente $y$ que es una perfecta combinación lineal de $x_1$ $x_2$ (sin errores), pero con uno positivo y otro signo negativo.
Los comandos siguientes en R
hacer ejemplos de este uso de n
datos de:
n <- 6 # (Later, try (say) n=10000 to see what happens.)
x1 <- 1:n # E.g., 1 2 3 4 5 6
x2 <- (x1 + c(-1,1))/2 # E.g., 0 3/2 1 5/2 2 7/2
y <- x1 - x2 # E.g, 1 1/2 2 3/2 3 5/2
data <- cbind(x1,x2,y)
Aquí una foto:
Primer aviso de los fuertes, consistentes correlaciones positivas entre las variables: en cada panel, los puntos de la tendencia de la esquina inferior izquierda a la superior derecha.
Correlaciones, sin embargo, no son los coeficientes de regresión. Una buena forma de entender la regresión múltiple de $y$ $x_1$ $x_2$ es la primera regresión tanto en $y$ $x_2$ (por separado) en $x_1$ (para eliminar los efectos de $x_1$ tanto $y$$x_2$) y, a continuación, haga retroceder el $y$ de los residuos en el $x_2$ residuos: la pendiente en que univariante de regresión será el $x_2$ coeficiente en el multivariante de regresión de $y$$x_1$$x_2$.
El triángulo inferior de este diagrama de dispersión de la matriz ha sido decorado con ajustes lineales (las líneas diagonales) y sus residuos (la línea vertical de los segmentos). Tomar un vistazo de cerca a la columna de la izquierda de las parcelas, que representan los residuos de las regresiones en contra de $x_1$. Escaneo de izquierda a derecha, observe cómo cada vez que el panel superior ($x_2$ vs $x_1$) muestra una negativa residual, en el panel inferior ($y$ vs $x_1$) muestra una positiva residual: estos residuos están negativamente correlacionados.
Esa es la idea clave: regresión múltiple se desprende de las relaciones que de otra manera puede ser ocultado por mutuo de las asociaciones entre las variables independientes.
Para los dudosos, podemos confirmar que el análisis de las gráficas con los cálculos. En primer lugar, la matriz de covarianza (en escala para simplificar la presentación):
> cov(data) * 40
x1 x2 y
x1 140 82 58
x2 82 59 23
y 58 23 35
El positivo entradas confirmar la impresión de que existe una correlación positiva en el diagrama de dispersión de la matriz. Ahora, la regresión multivariante:
> summary(lm(y ~ x1+x2))
...
Estimate Std. Error t value Pr(>|t|)
(Intercept) -7.252e-16 2.571e-16 -2.821e+00 0.0667 .
x1 1.000e+00 1.476e-16 6.776e+15 <2e-16 ***
x2 -1.000e+00 2.273e-16 -4.399e+15 <2e-16 ***
Una pendiente de +1 y el otro es -1. Ambos son importantes.
(Por supuesto, las pendientes son significativos: $y$ es una función lineal de $x_1$ $x_2$ con ningún error. Para una más realista ejemplo, sólo tiene que añadir un poco de error aleatorio a $y$. Siempre el error es pequeño, se puede cambiar ni los signos de las covarianzas ni los signos de los coeficientes de regresión, ni puede hacer de ellos "insignificante".)