Tengo una 1D conjunto de datos con 83163 puntos de datos, y me gustaría saber si los datos siguen una distribución normal.
He intentado utilizar shapiro.prueba y ks.prueba en R:
d es un vector que contiene los datos
shapiro.de prueba(de la muestra(d, 5000))
Shapiro-Wilk normality test
data: sample(d, 5000)
W = 0.9694, p-value < 2.2e-16
(Repite varias veces. Nota submuestreo.)
ks.de prueba(d, dnorm, media=mean(d), sd=sd(d))
One-sample Kolmogorov-Smirnov test
data: d
D = 1, p-value < 2.2e-16
alternative hypothesis: two-sided
Warning message:
In ks.test(d, dnorm, mean = mean(d), sd = sd(d)) :
cannot compute correct p-values with ties
Ambas pruebas indican que la distribución de los datos es no normal.
Así que he intentado que el trazado de los datos (negro), y que parece ser el "taller" de una distribución normal con la media y sd estimarse a partir de los datos (azul).
Me preguntaba si la varianza es sobreestimado debido a los valores atípicos, por lo que traté de calcular Winsorized de la varianza. Yo de forma heurística coincidía con el pico en la distribución de los datos, pero no puedo conseguir un buen ajuste (rojo).
Editar:
qqplot también sugieren la no-normalidad.
Hay una distribución que mejor puede modelar los datos?
La razón por la que quería comprobar la normalidad es porque otros lo han hecho de dos muestras de z-pruebas, y el modelado de los datos mediante distribución Gausiana.
Para hacer el cuento largo corto, el trabajo de matemáticas mucho bien, si la distribución de los datos, se supone que para ser normal. Como la normalidad supuesto va más allá de la simple aplicación de pruebas paramétricas, no sé cuán robustos son los resultados cuando los datos no siguen una distribución normal...
Parece una considerable desviación de la normalidad en términos de la curtosis de la distribución. Y esta desviación es consistente de un conjunto de datos conjunto de datos...