16 votos

Medidas de heterocedasticidad de los residuos

Esta wikipedia enlace enumera una serie de técnicas para detectar OLS residuos de heterocedasticidad. Me gustaría saber que manos a la técnica es más eficiente en la detección de las regiones afectadas por heterocedasticidad.

Por ejemplo, aquí la región central en el OLS 'Residuos vs Equipados" parcela ve que tiene mayor varianza de los lados de la parcela (no estoy completamente seguro de que en los hechos, pero vamos a suponer que es el caso para el bien de la pregunta). Para confirmar, mirando el error de etiquetas en el QQ plot podemos ver que coincide con el error de etiquetas en el centro de los Residuos de la parcela.

Pero, ¿cómo podemos cuantificar los residuos de la región que tiene significativamente mayor varianza?

heteroscedasticity

17voto

jldugger Puntos 7490

Este problema tiene un estudio exploratorio que se sienten a la misma. John Tukey describe muchos de los procedimientos para la exploración de la heterocedasticidad en su clásico, Análisis Exploratorio de Datos (Addison-Wesley 1977). Tal vez el más útil directamente es una variante de su "errante esquemático de la parcela." Este rodajas de una variable (como el valor predicho) en las papeleras y los usos m-carta de resúmenes (generalizaciones de boxplots) para mostrar la ubicación, extensión, y la forma de la otra variable para cada bin. El m-carta estadísticas son más suavizadas con el fin de enfatizar en general los patrones en lugar de probabilidad de desviaciones.

Una versión rápida puede ser cocinada por la explotación de la boxplot procedimiento en R. Se ilustra con la simulación fuertemente heteroscedastic datos:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Data

Vamos a obtener los valores pronosticados y los residuos de la regresión por MCO:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Aquí, entonces, es la divagación esquemático de la parcela mediante la igualdad de conteo de contenedores para la predicción de valores. Yo uso lowess para una rápida y sucia suave.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Wandering schematic plot

La curva azul suaviza las medianas. Sus horizontal tendencia indica que la regresión es generalmente un buen ajuste. Las otras curvas de suavizar los extremos del cuadro (cuartiles) y cercas (que en general son los valores extremos). Su fuerte convergencia y la posterior separación testimonio de la heterocedasticidad--y nos ayudan a caracterizar y cuantificar.

(Note que el no lineal de la escala en el eje horizontal, lo que refleja la distribución de los valores de la predicción. Con un poco más de trabajo de este eje podría ser linealizada, que a veces es útil.)

9voto

simmosn Puntos 304

Normalmente, heterocedasticidad se modela con una Breusch-Pagan enfoque. Los residuos de su regresión lineal son, a continuación, cuadrado y regresión sobre las variables en el modelo lineal. El último de regresión se llama un auxiliar de regresión.

$nR^2_a$ donde $n$ es el número de observaciones y $R^2_a$ $R^2$ de la auxiliar de regresión sirve como una prueba estadística para la hipótesis nula de homoskedasticity.

Para sus propósitos, usted puede centrarse en el individuo coeficientes de este modelo para ver cuáles son las variables más predictivas de alta o baja de la varianza de los resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X