7 votos

¿Prueba de Kruskal-Wallis o Fligner para comprobar la homogeneidad de varianzas?

Tengo una duda, necesito comprobar la homogeneidad de las varianzas de los residuos de una regresión lineal. He leído que de Kruskal también es bueno sin asumir una normal de distribución. Pero no sé si es bueno en mi caso. Estoy haciendo una regresión lineal de dos vectores de precios(los precios de las acciones). También comprobé la "normalidad" de Anderson-Darling prueba de normalidad (ad.prueba de nortest paquete) y los residuos parece que no se distribuye normalmente, pero tal vez estoy eligiendo un mal de prueba para comprobarlo.

Por lo tanto, mi objetivo es comprobar si la varianza de los residuales son homogéneos. Obviamente, yo subdividir los residuos de la lista en dos grupos como:

res[1:300]
res[301:600]

¿Cómo puedo hacer?

12voto

ashwnacharya Puntos 3144

Si entiendo correctamente, usted tiene un predictor (variable explicativa $x$) y uno de los criterios (predicho de la variable $y$) en una regresión lineal simple. Las pruebas de significación basa en el modelo de la suposición de que para cada observación de la $i$ $$ y_{i} = \beta_{0} + \beta_{1} x_{i} + \epsilon_{i} $$ donde $\beta_{0}, \beta_{1}$ son los parámetros que queremos estimar y probar hipótesis acerca de, y los errores de $\epsilon_{i} \sim N(0, \sigma^{2})$ están normalmente distribuidas variables aleatorias con media 0 y varianza constante $\sigma^{2}$. Todos los $\epsilon_{i}$ son asumidos para ser independientes uno de otro, y de la $x_{i}$. El $x_{i}$ sí se supone que esté libre de error.

Se utiliza el término "homogeneidad de las varianzas", que se utiliza normalmente cuando tienes distintos grupos (como en ANOVA), es decir, cuando el $x_{i}$ sólo toman unos valores distintos. En el contexto de la regresión, donde $x$ es continuo, en el supuesto de que la varianza de error es: $\sigma^{2}$ en todas partes se llama homoscedasticity. Esto significa que todos los condicional de error de las distribuciones tienen la misma varianza. Esta suposición no puede ser probado con una prueba para los distintos grupos (Fligner-Killeen, test de Levene).

El siguiente diagrama intenta ilustrar la idea de idéntica condicional distribuciones de error (R-código aquí).

enter image description here

Pruebas de heterocedasticidad son los Breusch-Pagan-Godfrey-Test (bptest() del paquete lmtest o ncvTest() del paquete car) o el Blanco de la Prueba (white.test() del paquete tseries). También puede considerar el uso de heterocedasticidad coherente con los errores estándar (modificado Blanco estimador, véase la función hccm() del paquete car o vcovHC() del paquete sandwich). Estos errores estándar pueden ser utilizados en combinación con la función coeftest() del paquete lmtest(), tal como se describe en la página 184-186 en Fox & Weisberg (2011), Un R Compañero de la aplicación de la Regresión.

También se puede simplemente parcela empírica de los residuos (o alguna transformación de los mismos) contra los valores ajustados. Típico de las transformaciones de la studentized residuos (propagación a nivel de parcela) o la raíz cuadrada de la absoluta residuos (escala de ubicación de la parcela). Estas parcelas no debe revelar una tendencia evidente a la residual de distribución que depende de la predicción.

enter image description here

N <- 100                                  # number of observations
X <- seq(from=75, to=140, length.out=N)   # predictor
Y <- 0.6*X + 10 + rnorm(N, 0, 10)         # DV
fit   <- lm(Y ~ X)                        # regression
E     <- residuals(fit)                   # raw residuals
Estud <- rstudent(fit)                    # studentized residuals

plot(fitted(fit), Estud, pch=20, ylab="studentized residuals",
     xlab="prediction", main="Spread-Level-Plot")
abline(h=0, col="red", lwd=2)
plot(fitted(fit), sqrt(abs(E)), pch=20, ylab="sqrt(|residuals|)",
     xlab="prediction", main="Scale-Location-Plot")

2voto

pauly Puntos 932

La respuesta inmediata parece ser de la Prueba de Levene. También se describe en Wikipedia. Test de Levene es aplicable en su caso, ya que es menos sensible a las desviaciones de la normalidad de una alternativa, la Prueba de Bartlett. Test de Levene es paramétrico, pero adecuado, incluso con cierto grado de no-normalidad. Si la distribución se apartó radicalmente de la normalidad, como con extrema valores atípicos, que desea utilizar no paramétrica alternativa.

Yo no veo ninguna prueba de Kruskal es aplicable aquí. Pero usted también deseará comprobar otros hilos como este.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X