12 votos

Prueba la gran base de datos de normalidad - ¿y es fiable?

Estoy estudiando una parte de mi conjunto de datos que contiene 46840 el doble de los valores que van desde 1 de 1690, agrupadas en dos grupos. Con el fin de analizar las diferencias entre estos grupos empecé por el examen de la distribución de los valores con el fin de elegir el derecho de la prueba.

Siguiendo a un guía en las pruebas de normalidad, hice un qqplot, histograma y boxplot.

enter image description here

enter image description hereenter image description here

Esta no parece ser una distribución normal. Desde la guía, algo correctamente que puramente gráfico examen no es suficiente, yo también quiero probar la distribución de normalidad.

Teniendo en cuenta el tamaño del conjunto de datos y la limitación de la prueba de shapiro-wilks en R , cómo debe ser la distribución dada, ser a prueba de normalidad y teniendo en cuenta el tamaño del conjunto de datos, esto es incluso confiable? (Ver aceptada respuesta a esta pregunta)

Editar:

La limitación de los test de Shapiro-Wilk que me estoy refiriendo es que el conjunto de datos a ser probado es limitado a 5000 puntos. Para citar otra buena respuesta con respecto a este tema:

Un problema adicional con la de Shapiro-Wilk la prueba es que cuando le des de comer más datos, la probabilidad de que la hipótesis nula se rechaza se hace más grande. Lo que ocurre es que para grandes cantidades de datos, incluso muy pequeñas desviaciones de la normalidad puede ser detectado, dando lugar a el rechazo de la hipótesis nula de eventos de hough para fines prácticos los datos más de lo normal suficiente.

[...] Por suerte shapiro.prueba protege al usuario de la descrita anteriormente el efecto de limitar el tamaño de los datos a 5000.

Por qué yo soy la prueba de distribución normal en el primer lugar:

Algunas pruebas de hipótesis asume una distribución normal de los datos. Quiero saber si puedo o no el uso de estas pruebas.

14voto

Nick Stauner Puntos 8220

No veo por qué a usted le molesta. Es que evidentemente no es normal – en este caso, la gráfica de examen parece suficiente para mí. Tienes un montón de observaciones de lo que parece ser un bonito y limpio distribución gamma. Sólo tienes que ir con eso. si debe – yo voy a recomendar una referencia de distribución.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
enter image description here

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Como siempre digo, "Ver Es la normalidad de las pruebas "prácticamente inútil"?," particularmente @MånsT la respuesta, que señala que los análisis diferentes, tienen diferentes sensibilidades a las diferentes violaciones de los supuestos de normalidad. Si su distribución es lo más cercano a la mina como se ve, es probable que haya sesgar 1.4 y la curtosis 5.9 ("exceso de curtosis" 2.9). Que la propensión a ser un problema para una gran cantidad de pruebas. Si usted no puede encontrar una prueba con más apropiado supuestos paramétricos o ninguno en absoluto, tal vez usted podría transformar los datos, o al menos realizar un análisis de sensibilidad de cualquier análisis que tiene en mente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X