7 votos

Probando la normalidad

Tengo un gran conjunto de datos (500000 datos, V1 columna de incluir todos los datos).

x <- read.csv("mydata.csv", header=F)
hist(x)

Lo que da:

Histogram

Mirando los datos, creo que no es una distribución normal. Como una comprobación adicional, construí un qqplot:

x_norm <- (x$V1 - mean(x$V1))/sd(x$V1)
qqnorm(x_norm); abline(0, 1)

que dio:

QQ-plot

Para comprobar la bondad de ajuste de x$V1 (rawdata) a una distribución normal, he utilizado:

rnorm <- rnorm(500000, mean(x$V1), sd(x$V1))
cc <- cbind(rnorm, x$V1)
g <- goodfit(cc, method="MinChisq")
summary(g)

         Goodness-of-fit test for poisson distribution

             X^2 df      P(> X^2)
Pearson 914.5227 17 1.679266e-183
Warning message:
In summary.goodfit(g) : Chi-squared approximation may be incorrect

Con plot(g) dando:

¿Esto parece correcto? Puedo concluir con seguridad en mis datos X$V1 es o no una distribución normal?

Basado en el análisis anterior, ¿qué otro tipo de distribución debo probar?

6voto

Zizzencs Puntos 1358

Me gustaría no depender de los valores de p para cualquier prueba de normalidad (o para otra cosa, francamente). Mirar los gráficos.

Usted puede, a priori, decir que CADA distribución no es normal. Si usted tiene un gran conjunto de datos de la nonnormality va a ser estadísticamente significativa. Las preguntas son ¿no es normal? No normal en qué maneras? y ¿cuáles son las consecuencias?

Ninguna de estas preguntas se responde por cualquier prueba de normalidad o de la significación estadística.

¿Por qué están las pruebas de normalidad? Si es una prueba de residuos de algún modelo lineal, hubo una gran cita de George Cuadro ... algo como esto es "como el envío de un bote de remos para ver si el agua está en calma suficiente para un transatlántico"

5voto

user4812 Puntos 1149

Todo lo que puedo decir es que tus ojos son una de tus mejores herramientas de EDA. Si sus datos (con 500,000 observaciones) no se ven normales, entonces no hay razón para siquiera realizar una prueba estadística de normalidad. Especialmente con tantos puntos de datos, cualquier ligera desviación de la normalidad debería hacer que falles la prueba.

Parece que tus datos también son discretos. Debería considerar instalar un Binomial o Poisson u otra distribución discreta a los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X