7 votos

¿Es normal mi distribución de datos? (Pruebas de Shapiro y Kolmogornov-Smirnov)

Tengo una 1D conjunto de datos con 83163 puntos de datos, y me gustaría saber si los datos siguen una distribución normal.

He intentado utilizar shapiro.prueba y ks.prueba en R:

d es un vector que contiene los datos

shapiro.de prueba(de la muestra(d, 5000))

    Shapiro-Wilk normality test

data:  sample(d, 5000) 
W = 0.9694, p-value < 2.2e-16

(Repite varias veces. Nota submuestreo.)

ks.de prueba(d, dnorm, media=mean(d), sd=sd(d))

    One-sample Kolmogorov-Smirnov test

data:  d 
D = 1, p-value < 2.2e-16
alternative hypothesis: two-sided 

Warning message:
In ks.test(d, dnorm, mean = mean(d), sd = sd(d)) :
  cannot compute correct p-values with ties

Ambas pruebas indican que la distribución de los datos es no normal.

Así que he intentado que el trazado de los datos (negro), y que parece ser el "taller" de una distribución normal con la media y sd estimarse a partir de los datos (azul).

http://dl.dropbox.com/u/38050492/data-distrib.png

Me preguntaba si la varianza es sobreestimado debido a los valores atípicos, por lo que traté de calcular Winsorized de la varianza. Yo de forma heurística coincidía con el pico en la distribución de los datos, pero no puedo conseguir un buen ajuste (rojo).

Editar:

qqplot también sugieren la no-normalidad.

http://dl.dropbox.com/u/38050492/qqplot.png

Hay una distribución que mejor puede modelar los datos?

La razón por la que quería comprobar la normalidad es porque otros lo han hecho de dos muestras de z-pruebas, y el modelado de los datos mediante distribución Gausiana.

Para hacer el cuento largo corto, el trabajo de matemáticas mucho bien, si la distribución de los datos, se supone que para ser normal. Como la normalidad supuesto va más allá de la simple aplicación de pruebas paramétricas, no sé cuán robustos son los resultados cuando los datos no siguen una distribución normal...

Parece una considerable desviación de la normalidad en términos de la curtosis de la distribución. Y esta desviación es consistente de un conjunto de datos conjunto de datos...

12voto

Bryan Rehbein Puntos 3947

Definitivamente no es normal, y no es sólo el tamaño de la muestra grande. Ese qq-plot es realmente claro. La página wikipedia sobre kurtosis puede ser útil para usted; Menciona la familia de distribuciones de tipo VII de Pearson, con una imagen de densidades muy similar a la suya.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X