54 votos

R - QQPlot: cómo saber si los datos están distribuidos normalmente

Me han planeado esto después de que hice una de Shapiro-Wilk prueba de normalidad. La prueba demostró que es probable que la población está normalmente distribuida. Sin embargo, la manera de ver este "comportamiento" en esta parcela? enter image description here

ACTUALIZACIÓN

Un simple histograma de los datos:

enter image description here

ACTUALIZACIÓN

El test de Shapiro-Wilk dice:

enter image description here

41voto

Sven Hohenstein Puntos 3188

Si los datos están distribuidos normalmente, los puntos en el QQ normal de la parcela se acuesta en una línea diagonal recta. Usted puede añadir esta línea a usted QQ plot con el comando qqline(x), donde x es el vector de valores.

Ejemplos de lo normal y lo no normal de distribución:

Distribución Normal

set.seed(42)
x <- rnorm(100)

El QQ normal de la parcela con la línea:

qqnorm(x); qqline(x)

enter image description here

Las desviaciones de la línea recta son mínimos. Esto indica que la distribución normal.

El histograma:

hist(x)

enter image description here

No-normal (Gamma) de la distribución de

y <- rgamma(100, 1)

El QQ normal de la parcela:

qqnorm(y); qqline(y)

enter image description here

Los puntos que claramente sigue otra forma que la línea recta.

El histograma confirma la no-normalidad. La distribución no es en forma de campana, pero positivamente sesgada (es decir, la mayoría de los puntos de datos se encuentran en la mitad inferior). Los histogramas de las distribuciones normales muestran la frecuencia más alta en el centro de la distribución.

hist(y)

enter image description here

36voto

AdamSane Puntos 1825

"La prueba demostró que es probable que la población está normalmente distribuida."

No; no lo muestran.

Las pruebas de hipótesis no dicen cuál es la probabilidad de null. De hecho, usted puede apostar que este nula es falsa.

El Q-Q plot no da una indicación fuerte de la no-normalidad; hay un poco más corto a la izquierda de la cola.

El histograma como-es, probablemente, no dice mucho; no lo hace también alusión a un poco más corto a la izquierda de la cola. Pero ver aquí

La distribución de los datos son de no es normal. Sin embargo, el Q-Q plot muestra que la normalidad es probablemente una razonablemente buena aproximación.

Si el tamaño de la muestra no fue demasiado pequeño, la falta de rechazo de la Shapiro Wilk sería decir mucho de la misma.

Actualización: la edición, incluyendo la de Shapiro Wilk p-valor es importante porque en el hecho de que indicaría que podría rechazar la nula típicos de niveles significativos. La prueba indica que los datos no siguen una distribución normal y la leve asimetría indicado por las parcelas es probablemente lo que está siendo detectado por la prueba. Para procedimientos típicos que podría suponer la normalidad de la variable en sí (el one-sample t-test es uno que viene a la mente), en lo que parece ser una bastante grande, del tamaño de la muestra, este leve la no-normalidad será de casi ninguna consecuencia, uno de los problemas con la bondad del ajuste de las pruebas es que son más propensos a rechazar justo cuando no importa (cuando el tamaño de la muestra es lo suficientemente grande para detectar la no-normalidad); del mismo modo lo más probable es que no se puede rechazar cuando más importa (cuando el tamaño de la muestra es pequeño).

26voto

Bryan Puntos 6342

Algunas herramientas para la comprobación de la validez de la hipótesis de normalidad en R

library(moments)
library(nortest)
library(e1071)

set.seed(777)
x <- rnorm(250,10,1)

# skewness and kurtosis, they should be around (0,3)
skewness(x)
kurtosis(x)

# Shapiro-Wilks test
shapiro.test(x)

# Kolmogorov-Smirnov test
ks.test(x,"pnorm",mean(x),sqrt(var(x)))

# Anderson-Darling test
ad.test(x)

# qq-plot: you should observe a good fit of the straight line
qqnorm(x)
qqline(x)

# p-plot: you should observe a good fit of the straight line
probplot(x, qdist=qnorm)

# fitted normal density
f.den <- function(t) dnorm(t,mean(x),sqrt(var(x)))
curve(f.den,xlim=c(6,14))
hist(x,prob=T,add=T)

12voto

pkaeding Puntos 12935

Si bien es una buena idea para comprobar visualmente si su intuición coincide con el resultado de alguna prueba, no se puede esperar que esto sea fácil cada vez. Si la gente tratando de detectar el Bosón de Higgs sería de sólo confiar en sus resultados si se podría evaluar visualmente ellos, se necesita un muy buen ojo.

Especialmente con las grandes conjuntos de datos (y por lo tanto, normalmente con el aumento de poder), las estadísticas tienden a recoger la más pequeña de las diferencias, incluso cuando apenas son perceptibles a simple vista.

Lo que se dice: a la normalidad, tu QQ-plot debe mostrar una línea recta: yo diría que no. No son claras las curvas en las colas, e incluso cerca de la mitad hay una cierta conmoción. Visualmente, todavía podría estar dispuesto a decir (dependiendo del objetivo de la comprobación de la normalidad) los datos son "razonablemente" normal, aunque.

Tenga en cuenta sin embargo: la mayoría de los casos donde se desea comprobar la normalidad, sólo se necesita la normalidad de los medios en lugar de normalidad de las observaciones, por lo que el teorema central del límite, puede ser suficiente para rescatar. Además: mientras que la normalidad es a menudo una suposición que usted necesita para comprobar "oficialmente", muchas pruebas han demostrado ser bastante insensible a tener este supuesto no se cumple.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X