15 votos

¿Por qué usamos los residuos, para probar las hipótesis acerca de los errores de la regresión?

Supongamos que tenemos un modelo de $Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i$.

La regresión tiene una serie de supuestos, como que los errores de $\epsilon_i$ debe ser distribuido normalmente con media cero y varianza constante. Me han enseñado a comprobar estas hipótesis utilizando un normal Q parcela para la prueba de normalidad de los residuos $e_i = Y_i - \hat{Y}_i$ y los residuos vs equipada parcela para comprobar que los residuos varían alrededor de cero con varianza constante.

Sin embargo, estas pruebas son todos los residuos, no los errores.

Por lo que entiendo, los errores se define como la desviación de cada observación de su "verdadero" valor de la media. Así, podemos escribir $\epsilon_i = Y_i - \mathbb{E}[Y_i]$. Estos errores no pueden ser observados por nosotros. *

Mi pregunta es esta: lo bueno de un trabajo de hacer los residuos de hacer en la imitación de los errores?

Si los supuestos parecen estar satisfechos en los residuos, ¿esto quiere decir que están satisfechos de los errores también? Hay otros (mejor) maneras de poner a prueba las hipótesis, como el ajuste del modelo a un conjunto de datos de prueba y obtener los residuos a partir de ahí?


* Además, no se requiere que el modelo está especificado correctamente? Es decir, que la respuesta que realmente no tienen una relación con los predictores $X_1, X_2,$ etc. en la forma especificada por el modelo.

Si nos faltan algunos predictores (por ejemplo, $X_{k+1}\ \text{to}\ X_p$), entonces la expectativa $\mathbb{E}[Y_i] = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik}$ ni sería la verdadera media, y un mayor análisis de una incorrecta modelo parece no tener sentido.

¿Cómo podemos comprobar si el modelo es correcto?

14voto

Aaron Puntos 36

Bajo un estándar de la regresión lineal múltiple con independiente homoskedastic normal de los términos de error, la distribución de los residuales de vector se conoce, que le permite probar el subyacente de la distribución de las hipótesis en el modelo de regresión. La idea básica es que usted averiguar la distribución de los residuales de vector bajo los supuestos de la regresión y, a continuación, compruebe si los valores residuales plausiblemente partido de este teórico de la distribución. Las desviaciones de la teoría residual de distribución muestran que el subyacente supone la distribución de los términos de error es de malo en un poco de respeto.

Si utiliza el error subyacente distribución $\epsilon_i \sim \text{IID N}(0, \sigma^2)$ para una estándar del modelo de regresión y el uso de MODELOS de estimación de los coeficientes, a continuación, la distribución de los residuos puede ser demostrado ser la distribución normal multivariante:

$$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})),$$

donde $\boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}}$ es el sombrero de la matriz de la regresión. El vector residual imita el vector de error, pero la varianza de la matriz tiene además el término multiplicativo $\boldsymbol{I} - \boldsymbol{h}$. Para probar los supuestos de la regresión utilizamos el studentised residuos, que han marginal de la distribución T de:

$$s_i \equiv \frac{r_i}{\hat{\sigma}_{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}_{\text{Res}}-1).$$

(Esta fórmula es para la externamente studentised residuos, donde la varianza del estimador excluye la variable bajo consideración. Los valores de $l_i = h_{i,i}$ son la influencia de los valores, que son la diagonal de los valores en el sombrero de la matriz. El studentised residuos no son independientes, pero si $n$ es de gran tamaño, que son cerca de independiente. Esto significa que la distribución marginal es un simple conocido de distribución, pero la distribución conjunta es complicado.) Ahora, si el límite de $\lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta$ existe, entonces se puede demostrar que el coeficiente de estimadores son consistentes estimadores de los verdaderos coeficientes de regresión, y los residuos son estimadores consistentes de los verdaderos términos de error.

Esencialmente, esto significa que la prueba de la subyacente de la distribución de la hipótesis de los términos de error mediante la comparación de la studentised residuos a la distribución T. Cada una de las propiedades subyacentes de la distribución de error (linealidad, homoskedasticity, la no correlación de los errores, normalidad) puede ser probado mediante el uso de los análogos de las propiedades de la distribuion de la studentised residuos. Si el modelo está correctamente especificado, por un gran $n$ de los residuos debe estar cercano a la verdad de los términos de error, y tienen una similar distribución de la forma.

La omisión de una variable explicativa del modelo de regresión conduce a un sesgo de variable omitida en el coeficiente de estimadores y esto afecta a la residual de distribución. Tanto la media y la varianza de los residuales vector se ven afectados por la variable omitida. Si el omitido los términos de la regresión se $\boldsymbol{Z} \boldsymbol{\delta}$, entonces el vector residual se convierte en $\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon})$. Si los vectores de datos en la omitido matriz $\boldsymbol{Z}$ son IID vectores normales e independientes de los términos de error, a continuación,$\boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma^2 \boldsymbol{I})$, de modo que el residual de distribución se convierte en:

$$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h}) \Big).$$

Si ya existe un término de intersección en el modelo (es decir, si el vector unitario $\boldsymbol{1}$ es en el diseño de la matriz), a continuación,$(\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0}$, lo que significa que el estándar de la distribución de la forma de los residuos se conserva. Si no hay ningún término de intersección en el modelo la variable omitida puede dar una media distinta de cero de los residuos. Alternativamente, si la variable omitida no es IID normal, entonces se puede llevar a otras desviaciones de la norma residual de distribución. En este último caso, el valor residual de las pruebas es raro detectar nada de lo que resulte de la presencia de una variable omitida; generalmente, no es posible determinar si las desviaciones de la teoría residual de distribución se produce como resultado de una variable omitida, o simplemente a causa de un mal planteado relación con el incluido variables (y podría decirse que estos son la misma cosa, en cualquier caso).

-4voto

homerhh Puntos 11

En general, los términos de residuos y errores significan la misma cosa. Si su modelo no tiene predictores, E(Y) es de hecho la media de Y. Con predictores (como en el modelo), E(Y) es el valor de Y predecir a partir de cada uno de X. Entonces, los residuos son la diferencia entre cada uno de los observados y predichos Y.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X