Tengo un gran conjunto de datos (500000 datos, V1 columna de incluir todos los datos).
x <- read.csv("mydata.csv", header=F)
hist(x)
Lo que da:
Mirando los datos, creo que no es una distribución normal. Como una comprobación adicional, construí un qqplot:
x_norm <- (x$V1 - mean(x$V1))/sd(x$V1)
qqnorm(x_norm); abline(0, 1)
que dio:
Para comprobar la bondad de ajuste de x$V1 (rawdata) a una distribución normal, he utilizado:
rnorm <- rnorm(500000, mean(x$V1), sd(x$V1))
cc <- cbind(rnorm, x$V1)
g <- goodfit(cc, method="MinChisq")
summary(g)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 914.5227 17 1.679266e-183
Warning message:
In summary.goodfit(g) : Chi-squared approximation may be incorrect
Con plot(g)
dando:
¿Esto parece correcto? Puedo concluir con seguridad en mis datos X$V1
es o no una distribución normal?
Basado en el análisis anterior, ¿qué otro tipo de distribución debo probar?