9 votos

¿Cómo se relacionan los residuos con las perturbaciones subyacentes?

En el método de mínimos cuadrados queremos estimar los parámetros desconocidos del modelo:

$$Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n)$$

Una vez hecho esto (para algunos valores observados), obtenemos la línea de regresión ajustada:

$$Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n)$$

Ahora, obviamente, queremos comprobar algunos gráficos para asegurarnos de que se cumplen los supuestos. Supongamos que queremos comprobar la homocedasticidad, pero para ello estamos comprobando los residuos $e_j$ . Digamos que se examina el gráfico de los valores residuales frente a los predichos, si eso nos muestra que la heteroscedasticidad es evidente, entonces cómo se relaciona con el término de perturbación $\varepsilon_j$ ? ¿Implica la heteroscedasticidad en los residuos la heteroscedasticidad en los términos de perturbación?

8voto

AdamSane Puntos 1825

La relación entre $\hat{\varepsilon}$ y $\varepsilon$ es:

$$\hat{\varepsilon} = (I-H) \varepsilon$$

donde $H$ la matriz del sombrero, es $X(X^TX)^{-1}X^T$ .

Es decir, que $\hat{\varepsilon}_i$ es una combinación lineal de todos los errores, pero normalmente la mayor parte del peso recae en el $i$ - el primero.

Este es un ejemplo, utilizando el cars conjunto de datos en R. Considere el punto marcado en púrpura:

enter image description here

Llamémoslo punto $i$ . El residuo, $\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\sum_{j\neq i} w_j \varepsilon_j$ donde el $w_j$ para los demás errores son del orden de -0,02:

enter image description here

Podemos reescribirlo como:

$\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\eta_i$

o más generalmente

$\hat{\varepsilon}_i= (1-h_{ii})\varepsilon_i +\eta_i$

donde $h_{ii}$ es el $i$ -elemento diagonal de $H$ . Del mismo modo, el $w_j$ 's arriba son $h_{ij}$ .

Si los errores son iid $N(0,\sigma^2)$ entonces, en este ejemplo, la suma ponderada de esos otros errores tendrá una desviación estándar correspondiente a aproximadamente 1/7 del efecto del error del $i$ de la observación sobre su residuo.

Es decir, en las regresiones bien llevadas, los residuos pueden tratarse principalmente como una estimación moderadamente ruidosa del término de error inobservable. A medida que consideramos puntos más alejados del centro, las cosas funcionan algo menos bien (el residuo se vuelve menos ponderado en el error y los pesos de los otros errores se vuelven menos parejos).

Con muchos parámetros, o con $X$ no está tan bien distribuido, los residuos pueden ser mucho menos parecidos a los errores. Tal vez quieras probar algunos ejemplos.

2 votos

Este es el enfoque correcto. Lo que necesita además es un argumento de que los elementos diagonales de $H$ suelen ser "pequeñas". Esto se consigue demostrando que la traza es igual al número de variables independientes (incluido el intercepto, si lo hay), lo que se deduce inmediatamente del hecho de que se trata de una matriz de proyección. Obsérvese que este resultado es independiente de cualquier supuesto de distribución de las variables individuales. $\varepsilon_i$ no tienen por qué ser normales. También es independiente de cualquier fórmula para $H$ ; es consecuencia de un recuento de dimensiones.

0 votos

¿No sería otra circunstancia en la que los residuos pueden parecerse mucho menos a los errores si el número de observaciones $n$ ¿es pequeño? Normalmente como afirma @whuber el hecho de que la traza de $H$ igual al número de variables independientes implica que sus elementos diagonales son pequeños, pero esto no sería necesariamente así si el número $n$ de esos elementos es de por sí pequeño.

0 votos

@AdamBailey Claro que pasa cuando $n$ es pequeño ... pero eso es porque $p/n$ es relativamente grande aunque $p$ es sólo 1 ó 2.

3voto

Sean Hanley Puntos 2428

La forma más sencilla de pensarlo es que sus residuos brutos ( $e_j = y_j-\hat y_j$ ) son estimaciones de las correspondientes perturbaciones ( $\hat\varepsilon_j = e_j$ ). Sin embargo, hay algunas complejidades adicionales. Por ejemplo, aunque en el modelo OLS estándar suponemos que los errores/perturbaciones son independientes, los residuos no pueden serlo todos. En general, sólo $N-p-1$ los residuos pueden ser independientes ya que se ha utilizado $p-1$ grados de libertad en la estimación del modelo medio y los residuos se limitan a sumar $0$ . Además, la desviación estándar de los residuos brutos no es realmente constante. En general, la línea de regresión se ajusta de tal manera que estará más cerca en promedio de los puntos con mayor apalancamiento. En consecuencia, la desviación estándar de los residuos de esos puntos es menor que la de los puntos de bajo apalancamiento. (Para más información sobre este tema, puede ser útil leer las respuestas aquí: Interpretación de plot.lm() y/o aquí: ¿Cómo realizar un análisis de residuos para predictores independientes binarios o dicotómicos en una regresión lineal? )

3 votos

Para aclarar, como máximo N-p-1 residuos pueden ser independientes, pero normalmente están todos correlacionados; en cambio, hay transformaciones lineales de ellos que pueden tener N-p-1 componentes independientes.

0 votos

@Glen_b, buena observación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X