En regresión lineal múltiple, puedo entender las correlaciones entre predictores y la residual están cero, pero ¿cuál es la correlación esperada entre residual y la variable de criterio? ¿En caso de que se espera que sea cero o altamente correlacionados? ¿Cuál es el significado de eso?
Respuestas
¿Demasiados anuncios?La correlación depende de la $R^2$. Si $R^2$ es alto, significa que gran parte de la variación en la variable dependiente se puede atribuir a la variación en la variable independiente, y NO el término de error.
Sin embargo, si $R^2$ es bajo, significa que gran parte de la variación en la variable dependiente no está relacionado con la variación en la variable independiente, y por lo tanto debe estar relacionado con el término de error.
Considere el siguiente modelo:
$Y=X\beta+\varepsilon$ donde $Y$ $X$ no están correlacionados.
Suponiendo que suficiente regularidad condiciones para el CLT de mantener.
$\hat{\beta}$ convergerán a $0$, ya que el $X$ $Y$ no están correlacionados. Por lo tanto, $\hat{Y}=X\hat{\beta}$ siempre será cero. Por lo tanto, la $\varepsilon:=Y-\hat{Y}=Y-0=Y$. $\varepsilon$ y $Y$ están perfectamente correlacionadas!!!
La celebración de todos los demás fija, el aumento de la $R^2$ disminuirá la correlación entre el error y la dependiente. Una fuerte correlación no es necesariamente una causa de alarma. Esto puede simplemente significa que el proceso subyacente es ruidoso. Sin embargo, un bajo $R^2$ (y, por tanto, una alta correlación entre el error y la dependiente) puede ser debido a la modelo misspecification.
En el modelo de regresión:
$$y_i=\mathbf{x}_i'\beta+u_i$$
la suposición es que de costumbre $(y_i,\mathbf{x}_i,u_i)$, $i=1,...,n$ es un alcoholímetro de la muestra. Bajo los supuestos de que $E\mathbf{x}_iu_i=0$ $E(\mathbf{x}_i\mathbf{x}_i')$ tiene rango completo, el estimador de mínimos cuadrados ordinarios:
$$\widehat{\beta}=\left(\sum_{i=1}^n\mathbf{x}_i\mathbf{x}_i'\right)^{-1}\sum_{i=1}\mathbf{x}_iy_i$$
es consistente y asintóticamente normal. La espera covarianza entre un residual y la variable de respuesta es:
$$Ey_iu_i=E(\mathbf{x}_i'\beta+u_i)u_i=Eu_i^2$$
Si nosotros, además, asumir que $E(u_i|\mathbf{x}_1,...,\mathbf{x}_n)=0$$E(u_i^2|\mathbf{x}_1,...,\mathbf{x}_n)=\sigma^2$, se puede calcular la espera de la covarianza entre el $y_i$ y su regresión residual:
$$\begin{align*} Ey_i\widehat{u}_i&=Ey_i(y_i-\mathbf{x}_i'\widehat{\beta})\\\\ &=E(\mathbf{x}_i'\beta+u_i)(u_i-\mathbf{x}_i(\widehat{\beta}-\beta))\\\\ &=E(u_i^2)\left(1-E\mathbf{x}_i' \left(\sum_{j=1}^n\mathbf{x}_j\mathbf{x}_j'\right)^{-1}\mathbf{x}_i\right) \end{align*}$$
Ahora para obtener la correlación necesitamos para calcular el $\text{Var}(y_i)$$\text{Var}(\hat{u}_i)$. Resulta que
$$\text{Var}(\hat u_i)=E(y_i\hat{u}_i),$$
por lo tanto
$$\text{Corr}(y_i,\hat u_i)=\sqrt{1-E\mathbf{x}_i' \left(\sum_{j=1}^n\mathbf{x}_j\mathbf{x}_j'\right)^{-1}\mathbf{x}_i}$$
Ahora bien, el término $\mathbf{x}_i' \left(\sum_{j=1}^n\mathbf{x}_j\mathbf{x}_j'\right)^{-1}\mathbf{x}_i$ proviene de la diagonal de la matriz hat $H=X(X'X)^{-1}X'$ donde $X=[\mathbf{x}_i,...,\mathbf{x}_N]'$. La matriz $H$ es idempotente, por lo tanto se satisface la siguiente propiedad
$$\text{trace}(H)=\sum_{i}h_{ii}=\text{rank}(H),$$
donde $h_{ii}$ es la diagonal plazo de $H$. El $\text{rank}(H)$ es el número de la forma lineal de las variables independientes en $\mathbf{x}_i$, el cual suele ser el número de variables. Llamémoslo $p$. El número de $h_{ii}$ es el tamaño de la muestra $N$. Así que tenemos $N$ no negativo de términos que se deben sumar a a $p$. Usualmente $N$ es mucho mayor que $p$, por lo tanto, una gran cantidad de $h_{ii}$ sería cercano a cero, lo que significa que la correlación entre los residuales y la variable de respuesta sería cercano a 1 para la mayor parte de las observaciones.
El plazo $h_{ii}$ es utilizado en varios de regresión de diagnóstico para la determinación de observaciones influyentes.
Me parece que este tema es muy interesante y actual, las respuestas son, lamentablemente, incompleta o en parte engañosa - a pesar de la relevancia y la alta popularidad de esta pregunta.
Por definición clásica de la OLS marco no debe haber ninguna relación entre el $y ̂$ $\hat u$ , puesto que los residuos obtenidos son por construcción no guardan relación con el $y ̂$ al derivar el estimador OLS. La varianza de la minimización de la propiedad en virtud de homoskedasticity se asegura de que el error residual en forma aleatoria, se extendió alrededor de los valores ajustados. Esto puede ser formalmente demostrado por:
$$\text{Cov}(y ̂,u ̂|X)=\text{Cov}(Py,My|X)=\text{Cov}(Py,(I-P)y|X)=P\text{Cov}(y,y)(I-P)'$$ $$=Pσ^2-Pσ^2=0$$
Donde $M$ $P$ son idempotente matrices se define como: $P=X(X' X)X'$$M=I-P$.
Este resultado se basa en la estricta exogeneidad y homoskedasticity, y prácticamente se mantiene en muestras grandes. La intuición de su uncorrelatedness es la siguiente: El conjunto de los valores de $y ̂$ condicional en $X$ giran en torno a $u ̂$, que se considera como de forma independiente e idénticamente distribuidas. Sin embargo, cualquier desviación de la estricta exogeneidad y homoskedasticity suposición podría provocar que las variables explicativas endógenas y estimular una latente correlación entre el$u ̂$$y ̂$.
Ahora la correlación entre los residuos $u ̂$ y el "original" $y$ es una historia completamente diferente:
$$\text{Cov}(y,u ̂|X)=\text{Cov}(yMy|X)=\text{Cov}(y,(1-P)y)=\text{Cov}(y,y)(1-P)=σ^2 M$$
Algunos de cheques en la teoría y sabemos que esta matriz de covarianza es idéntica a la de la matriz de covarianza de los residuos de la $\hat{u}$ sí (prueba omitida). Tenemos:
$$\text{Var}(u ̂ )=σ^2 M=\text{Cov}(y,u ̂|X)$$
Si quisiéramos calcular el (escalar) la covarianza entre el $y$ $\hat{u}$ solicitado por la OP, obtenemos:
$$\implies \text{Cov}_{scalar}(y,u ̂|X)=\text{Var}(u ̂|X)=\left(∑u_i^2 \right)/N$$
(= haciendo un resumen de las entradas de la diagonal de la matriz de covarianza y dividir por N)
La fórmula anterior indica un punto interesante. Si ponemos a prueba la relación mediante una regresión $y$ en los residuos de $\hat{u}$ (+constante), el coeficiente de la pendiente $\beta_{\hat{u},y}=1$, que puede ser fácilmente derivados cuando dividimos la expresión anterior por el $\text{Var}(u ̂|X)$.
Por otro lado, la correlación es la covarianza normalizada por las respectivas desviaciones estándar. Ahora, la varianza de la matriz de los residuos es $σ^2 M$, mientras que la varianza de $y$$σ^2 I$. La correlación $\text{Corr}(y,u ̂ )$ se convierte por lo tanto:
$$\text{Corr}(y,u ̂ )=\frac{\text{Var}(u ̂ )}{\sqrt{\text{Var}(\hat{u})\text{Var}(y)}}=\sqrt{\frac{\text{Var}(u ̂ )}{\text{Var}(y)} }=\sqrt{\frac{\text{Var}(u ̂ )}{σ^2 }}$$
Este es el principal resultado que se debe mantener en una regresión lineal. La intuición es que el $\text{Corr}(y,u ̂ )$ expresa que el error entre la verdadera varianza del término de error y un proxy para la varianza basándose en los residuos. Observe que la varianza de $y$ es igual a la varianza de la $\hat{y}$ más de la varianza de los residuos de $\hat{u}$. Así que puede ser una forma más intuitiva reescrita como:
$$\text{Corr}(y,u ̂ )=\frac{1}{\sqrt{1+\frac{\text{Var}(\hat{y)}}{\text{Var}(u ̂ )}}}$$
Las dos fuerzas aquí en el trabajo. Si tenemos un gran ajuste de la recta de regresión, la correlación se espera que sea baja debido a $\text{Var}(u ̂ )\approx 0$. Por otro lado, $\text{Var}(\hat{y})$ es un poco de chocolate a la autoestima como es incondicional y una línea en el espacio de parámetros. La comparación de un incondicional y condicional variaciones dentro de una relación puede no ser un indicador apropiado, después de todo. Tal vez, por eso es que rara vez se hace en la práctica.
Un intento de conclusión de la cuestión: La correlación entre el $y$ $u ̂$ es positivo y se refiere a la proporción de la varianza de los residuos y la varianza de la verdadera término de error, delegada por el incondicional variación en $y$. Por lo tanto, es un poco de un indicador engañoso.
A pesar de este ejercicio nos puede dar alguna intuición sobre el funcionamiento y la inherente supuestos teóricos de una regresión por MCO, rara vez nos evaluar la correlación entre el$y$$u ̂$. Sin duda hay más pruebas establecidas para la comprobación de las propiedades de la verdadera término de error. En segundo lugar, tenga en cuenta que los residuos no son el término de error, y a las pruebas de residuos de $u ̂$ que hacer predicciones de las características sobre el verdadero término de error $u$ son limitadas y su validez se deben manejar con sumo cuidado.
Por ejemplo, me gustaría señalar una declaración hecha por un anterior cartel aquí. Se dice que,
"Si los residuos están correlacionadas con la variable independiente, entonces el modelo es heteroskedastic..."
Creo que no puede ser totalmente válida en este contexto. Lo creas o no, pero el OLS residuos $u ̂$ son por la construcción realizada para ser correlacionadas con la variable independiente $x_k$. Para ver esto, considere la posibilidad de:
$$X'u_i=X'My=X'(I-P)y=X'y-X'Py$$ $$=X'y-X'X(X'X)X'y=X'y-X'y=0$$ $$\implies X'u_i=0 \implies \text{Cov}(X',u_i|X)=0 \implies \text{Cov}(x_{ki},u_i|x_ki)=0$$
Sin embargo, usted puede haber oído hablar de las afirmaciones de que una variable explicativa está correlacionada con el término de error. Aviso de que tales reclamaciones se basan en suposiciones sobre el conjunto de la población con un cierto subyacente modelo de regresión, lo que hacemos no observar de primera mano. Por consiguiente, la comprobación de la correlación entre el $y$ $u ̂$ parece no tener sentido en un lineal OLS marco. Sin embargo, cuando las pruebas de heterocedasticidad, se toma aquí en cuenta el segundo condicional momento, por ejemplo, la regresión de los cuadrados de los residuos en $X$ o una función de $X$, como es a menudo el caso con FGSL estimadores. Esto es diferente de la evaluación de la llanura de correlación. Espero que esto ayude a hacer las cosas más claras.
Respuesta de Adán es incorrecta. Incluso con un modelo que se adapta perfectamente a los datos, todavía puede conseguir alta correlación entre los residuos y la variable dependiente. Es por ello que ningún libro de regresión le pide que compruebe esta correlación. Puede encontrar la respuesta en el libro de "Análisis de regresión aplicado" de Dr. Draper.
Así, los residuos son su varianza inexplicada, la diferencia entre las predicciones del modelo y el resultado real que está modelado. En la práctica, son pocos los modelos producidos a través de la regresión lineal tendrá todos los residuos cercanos a cero, a menos que la regresión lineal se utiliza para analizar un mecánico fijo o proceso.
Idealmente, los residuos de su modelo debe ser al azar, lo que significa que no debe estar correlacionado con su dependiente o independiente de las variables (lo que ustedes llaman el criterio de la variable). En la regresión lineal, su término de error sigue una distribución normal, por lo que sus residuos deben también ser distribuido normalmente así. Si usted tiene importantes valores atípicos, o Si los residuos están correlacionadas con la variable dependiente o de sus variables independientes, entonces usted tiene un problema con su modelo.
Si usted tiene significativa de los valores extremos y la distribución no normal de los residuos, a continuación, los valores atípicos pueden sesgar su peso (Betas), y me gustaría sugerir el cálculo de DFBETAS para comprobar la influencia de sus observaciones sobre los pesos. Si los residuos están correlacionadas con la variable dependiente, entonces hay una gran cantidad de varianza inexplicada que no son contables. También puede ver esto si usted es el análisis de las observaciones repetidas de la misma cosa, debido a la autocorrelación. Esto puede ser comprobado para ver si los residuos están correlacionados con su tiempo o variable de índice. Si los residuos están correlacionadas con la variable independiente, entonces el modelo es heteroskedastic (ver: http://en.wikipedia.org/wiki/Heteroscedasticity). Usted debe comprobar (si no lo has hecho ya) si sus variables de entrada están distribuidos normalmente, y si no, entonces usted debería considerar la posibilidad de aumentar o transformar los datos (los tipos más comunes son de registro y raíz cuadrada) con el fin de hacer más normalizada.
En el caso de ambos, los residuos, y sus variables independientes, usted debe tomar un QQ-Plot, así como realizar un test de Kolmogorov-Smirnov (esta implementación particular se refiere a veces como la prueba de Lilliefors) para asegurarse de que sus valores de ajuste a una distribución normal.
Tres cosas que son rápidos y que pueden ser de ayuda para tratar con este problema, son el examen de la mediana de los residuos, debe estar tan cerca de cero como sea posible (la media casi siempre va a ser cero como resultado de la forma en que el término de error está equipado en la regresión lineal), una de Durbin-Watson prueba de autocorrelación en los residuos (especialmente como he mencionado antes, si usted está buscando en múltiples observaciones de las mismas cosas), y la realización de un parcial residual de la trama va a ayudar a detectar heterocedasticidad y valores atípicos.