Estoy estudiando una parte de mi conjunto de datos que contiene 46840 el doble de los valores que van desde 1 de 1690, agrupadas en dos grupos. Con el fin de analizar las diferencias entre estos grupos empecé por el examen de la distribución de los valores con el fin de elegir el derecho de la prueba.
Siguiendo a un guía en las pruebas de normalidad, hice un qqplot, histograma y boxplot.
Esta no parece ser una distribución normal. Desde la guía, algo correctamente que puramente gráfico examen no es suficiente, yo también quiero probar la distribución de normalidad.
Teniendo en cuenta el tamaño del conjunto de datos y la limitación de la prueba de shapiro-wilks en R , cómo debe ser la distribución dada, ser a prueba de normalidad y teniendo en cuenta el tamaño del conjunto de datos, esto es incluso confiable? (Ver aceptada respuesta a esta pregunta)
Editar:
La limitación de los test de Shapiro-Wilk que me estoy refiriendo es que el conjunto de datos a ser probado es limitado a 5000 puntos. Para citar otra buena respuesta con respecto a este tema:
Un problema adicional con la de Shapiro-Wilk la prueba es que cuando le des de comer más datos, la probabilidad de que la hipótesis nula se rechaza se hace más grande. Lo que ocurre es que para grandes cantidades de datos, incluso muy pequeñas desviaciones de la normalidad puede ser detectado, dando lugar a el rechazo de la hipótesis nula de eventos de hough para fines prácticos los datos más de lo normal suficiente.
[...] Por suerte shapiro.prueba protege al usuario de la descrita anteriormente el efecto de limitar el tamaño de los datos a 5000.
Por qué yo soy la prueba de distribución normal en el primer lugar:
Algunas pruebas de hipótesis asume una distribución normal de los datos. Quiero saber si puedo o no el uso de estas pruebas.