Si entiendo correctamente, usted tiene un predictor (variable explicativa $x$) y uno de los criterios (predicho de la variable $y$) en una regresión lineal simple. Las pruebas de significación basa en el modelo de la suposición de que para cada observación de la $i$
$$
y_{i} = \beta_{0} + \beta_{1} x_{i} + \epsilon_{i}
$$
donde $\beta_{0}, \beta_{1}$ son los parámetros que queremos estimar y probar hipótesis acerca de, y los errores de $\epsilon_{i} \sim N(0, \sigma^{2})$ están normalmente distribuidas variables aleatorias con media 0 y varianza constante $\sigma^{2}$. Todos los $\epsilon_{i}$ son asumidos para ser independientes uno de otro, y de la $x_{i}$. El $x_{i}$ sí se supone que esté libre de error.
Se utiliza el término "homogeneidad de las varianzas", que se utiliza normalmente cuando tienes distintos grupos (como en ANOVA), es decir, cuando el $x_{i}$ sólo toman unos valores distintos. En el contexto de la regresión, donde $x$ es continuo, en el supuesto de que la varianza de error es: $\sigma^{2}$ en todas partes se llama homoscedasticity. Esto significa que todos los condicional de error de las distribuciones tienen la misma varianza. Esta suposición no puede ser probado con una prueba para los distintos grupos (Fligner-Killeen, test de Levene).
El siguiente diagrama intenta ilustrar la idea de idéntica condicional distribuciones de error (R-código aquí).
Pruebas de heterocedasticidad son los Breusch-Pagan-Godfrey-Test (bptest()
del paquete lmtest
o ncvTest()
del paquete car
) o el Blanco de la Prueba (white.test()
del paquete tseries
). También puede considerar el uso de heterocedasticidad coherente con los errores estándar (modificado Blanco estimador, véase la función hccm()
del paquete car
o vcovHC()
del paquete sandwich
). Estos errores estándar pueden ser utilizados en combinación con la función coeftest()
del paquete lmtest()
, tal como se describe en la página 184-186 en Fox & Weisberg (2011), Un R Compañero de la aplicación de la Regresión.
También se puede simplemente parcela empírica de los residuos (o alguna transformación de los mismos) contra los valores ajustados. Típico de las transformaciones de la studentized residuos (propagación a nivel de parcela) o la raíz cuadrada de la absoluta residuos (escala de ubicación de la parcela). Estas parcelas no debe revelar una tendencia evidente a la residual de distribución que depende de la predicción.
N <- 100 # number of observations
X <- seq(from=75, to=140, length.out=N) # predictor
Y <- 0.6*X + 10 + rnorm(N, 0, 10) # DV
fit <- lm(Y ~ X) # regression
E <- residuals(fit) # raw residuals
Estud <- rstudent(fit) # studentized residuals
plot(fitted(fit), Estud, pch=20, ylab="studentized residuals",
xlab="prediction", main="Spread-Level-Plot")
abline(h=0, col="red", lwd=2)
plot(fitted(fit), sqrt(abs(E)), pch=20, ylab="sqrt(|residuals|)",
xlab="prediction", main="Scale-Location-Plot")