18 votos

Parcela QQ parece normal pero prueba de Shapiro-Wilk dice lo contrario

En R, tengo una muestra de 348 medidas, y quiero saber si me puede asumir que está normalmente distribuida para pruebas futuras.

Fundamentalmente, tras otra Pila respuesta, estoy buscando en la densidad de la trama y de la Q de parcela con:

plot(density(Clinical$cancer_age))

enter image description here

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

enter image description here

No tengo una gran experiencia en las Estadísticas, pero se ven como ejemplos de distribuciones normales que he visto.

Entonces estoy ejecutando el test de Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Si interpreto correctamente, me dice que es seguro para rechazar la hipótesis nula, que es que la distribución es normal.

Sin embargo, me he encontrado con dos Pila de posts (aquíy aquí), que fuertemente socavar la utilidad de esta prueba. Parece como si la muestra es grande (es de 348 considerado como grande?), es decir siempre que la distribución no es normal.

¿Cómo debo interpretar eso? Debo seguir con el QQ plot y asumir mi distribución es normal?

17voto

Mark White Puntos 569

Usted no tiene un problema aquí. Sus datos pueden ser ligeramente no-normal, pero es bastante normal que no debería plantear problemas. Muchos investigadores de las pruebas estadísticas suponiendo normalidad con mucho menos normal de los datos de los que usted tiene.

Yo confiaría en sus ojos. La densidad y Q-Q parcelas buscar razonable, a pesar de un ligero sesgo positivo en las colas. En mi opinión, usted no necesita preocuparse acerca de la no-normalidad de estos datos.

Usted tiene un N de alrededor de 350, y los valores de p son muy dependientes de los tamaños de muestra. Con una muestra de gran tamaño, casi cualquier cosa puede ser significativo. Esto ha sido discutido aquí.

Hay algunos increíbles respuestas en este muy popular puesto que, básicamente, llegó a la conclusión de que la realización de un contraste de hipótesis de significación de la prueba para la no-normalidad es "esencialmente inútil." El aceptó respuesta en ese post es una fabulosa demostración de que, incluso cuando los datos fueron generados a partir de una casi Gaussiano proceso, un nivel suficientemente alto tamaño de la muestra hace que la no-normales de la prueba significativo.


Lo siento, me di cuenta de que me vinculado a un post que había mencionado en tu pregunta original. Mi conclusión sigue en pie, aunque los datos no son tan no-normal que se debería plantear problemas.

6voto

redress Puntos 131

Su distribución no normal. Mira las colas (o falta de ella). A continuación es lo que se puede esperar de un normal Q la trama.

enter image description here

Se refieren a este post sobre cómo interpretar varios gráficos QQ.

Tenga en cuenta que mientras que una distribución no puede técnicamente ser normal, puede ser normal suficiente para calificar para los algoritmos que requieren de la normalidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X