Este problema tiene un estudio exploratorio que se sienten a la misma. John Tukey describe muchos de los procedimientos para la exploración de la heterocedasticidad en su clásico, Análisis Exploratorio de Datos (Addison-Wesley 1977). Tal vez el más útil directamente es una variante de su "errante esquemático de la parcela." Este rodajas de una variable (como el valor predicho) en las papeleras y los usos m-carta de resúmenes (generalizaciones de boxplots) para mostrar la ubicación, extensión, y la forma de la otra variable para cada bin. El m-carta estadísticas son más suavizadas con el fin de enfatizar en general los patrones en lugar de probabilidad de desviaciones.
Una versión rápida puede ser cocinada por la explotación de la boxplot
procedimiento en R
. Se ilustra con la simulación fuertemente heteroscedastic datos:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Vamos a obtener los valores pronosticados y los residuos de la regresión por MCO:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Aquí, entonces, es la divagación esquemático de la parcela mediante la igualdad de conteo de contenedores para la predicción de valores. Yo uso lowess
para una rápida y sucia suave.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
La curva azul suaviza las medianas. Sus horizontal tendencia indica que la regresión es generalmente un buen ajuste. Las otras curvas de suavizar los extremos del cuadro (cuartiles) y cercas (que en general son los valores extremos). Su fuerte convergencia y la posterior separación testimonio de la heterocedasticidad--y nos ayudan a caracterizar y cuantificar.
(Note que el no lineal de la escala en el eje horizontal, lo que refleja la distribución de los valores de la predicción. Con un poco más de trabajo de este eje podría ser linealizada, que a veces es útil.)