Bajo un estándar de la regresión lineal múltiple con independiente homoskedastic normal de los términos de error, la distribución de los residuales de vector se conoce, que le permite probar el subyacente de la distribución de las hipótesis en el modelo de regresión. La idea básica es que usted averiguar la distribución de los residuales de vector bajo los supuestos de la regresión y, a continuación, compruebe si los valores residuales plausiblemente partido de este teórico de la distribución. Las desviaciones de la teoría residual de distribución muestran que el subyacente supone la distribución de los términos de error es de malo en un poco de respeto.
Si utiliza el error subyacente distribución $\epsilon_i \sim \text{IID N}(0, \sigma^2)$ para una estándar del modelo de regresión y el uso de MODELOS de estimación de los coeficientes, a continuación, la distribución de los residuos puede ser demostrado ser la distribución normal multivariante:
$$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})),$$
donde $\boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}}$ es el sombrero de la matriz de la regresión. El vector residual imita el vector de error, pero la varianza de la matriz tiene además el término multiplicativo $\boldsymbol{I} - \boldsymbol{h}$. Para probar los supuestos de la regresión utilizamos el studentised residuos, que han marginal de la distribución T de:
$$s_i \equiv \frac{r_i}{\hat{\sigma}_{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}_{\text{Res}}-1).$$
(Esta fórmula es para la externamente studentised residuos, donde la varianza del estimador excluye la variable bajo consideración. Los valores de $l_i = h_{i,i}$ son la influencia de los valores, que son la diagonal de los valores en el sombrero de la matriz. El studentised residuos no son independientes, pero si $n$ es de gran tamaño, que son cerca de independiente. Esto significa que la distribución marginal es un simple conocido de distribución, pero la distribución conjunta es complicado.) Ahora, si el límite de $\lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta$ existe, entonces se puede demostrar que el coeficiente de estimadores son consistentes estimadores de los verdaderos coeficientes de regresión, y los residuos son estimadores consistentes de los verdaderos términos de error.
Esencialmente, esto significa que la prueba de la subyacente de la distribución de la hipótesis de los términos de error mediante la comparación de la studentised residuos a la distribución T. Cada una de las propiedades subyacentes de la distribución de error (linealidad, homoskedasticity, la no correlación de los errores, normalidad) puede ser probado mediante el uso de los análogos de las propiedades de la distribuion de la studentised residuos. Si el modelo está correctamente especificado, por un gran $n$ de los residuos debe estar cercano a la verdad de los términos de error, y tienen una similar distribución de la forma.
La omisión de una variable explicativa del modelo de regresión conduce a un sesgo de variable omitida en el coeficiente de estimadores y esto afecta a la residual de distribución. Tanto la media y la varianza de los residuales vector se ven afectados por la variable omitida. Si el omitido los términos de la regresión se $\boldsymbol{Z} \boldsymbol{\delta}$, entonces el vector residual se convierte en $\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon})$. Si los vectores de datos en la omitido matriz $\boldsymbol{Z}$ son IID vectores normales e independientes de los términos de error, a continuación,$\boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma^2 \boldsymbol{I})$, de modo que el residual de distribución se convierte en:
$$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h}) \Big).$$
Si ya existe un término de intersección en el modelo (es decir, si el vector unitario $\boldsymbol{1}$ es en el diseño de la matriz), a continuación,$(\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0}$, lo que significa que el estándar de la distribución de la forma de los residuos se conserva. Si no hay ningún término de intersección en el modelo la variable omitida puede dar una media distinta de cero de los residuos. Alternativamente, si la variable omitida no es IID normal, entonces se puede llevar a otras desviaciones de la norma residual de distribución. En este último caso, el valor residual de las pruebas es raro detectar nada de lo que resulte de la presencia de una variable omitida; generalmente, no es posible determinar si las desviaciones de la teoría residual de distribución se produce como resultado de una variable omitida, o simplemente a causa de un mal planteado relación con el incluido variables (y podría decirse que estos son la misma cosa, en cualquier caso).