Si los datos se distribuyen normalmente, los puntos de un gráfico de probabilidad normal (gráfico Q-Q normal) tienden a situarse en una línea recta.
En su caso, la variable aleatoria $X_H = Y$ se distribuye normalmente y la variable aleatoria $X_A = Y + Z$ no lo es. En concreto, supongamos que tenemos $n = 100$ observaciones de $X_H \sim Norm(100, 15).$
Veamos tres parcelas relevantes. La ECDF de un conjunto de datos pone la probabilidad $1/n$ en cada uno de los $n$ puntos de datos de una muestra. Partiendo de la altura 0 a la izquierda, se desplaza a 1 a la derecha a través de $n$ incrementos de $1/n$ .
La EDCF imita la CDF de la población, que se muestra como una curva azul en el gráfico de la izquierda.
En el gráfico Q-Q de la derecha, la escala vertical está distorsionada para que la CDF normal sea una línea recta y los puntos de la ECDF de una muestra normal sean casi una línea recta. (Las muestras simuladas y los gráficos son del software estadístico R).
x.h = rnorm(100, 100, 15)
par(mfrow=c(1,2)) # 2 panels side by side
plot.ecdf(x.h, pch=20)
curve(pnorm(x, 100, 15), lwd=2, col="blue", add=T)
qqnorm(x.h, datax=T)
par(mfrow=c(1,1))
Ahora mostramos los gráficos Q-Q de los datos de una hipotética (normal) y alternativas (no normales). He utilizado $X_A = X_H + Z$ donde $Z$ es exponencial con una media de 50.
x.a = x.h + rexp(100, 1/50)
par(mfrow=c(1,2))
qqnorm(x.h, datax=T)
qqnorm(x.a, datax=T)
par(mfrow=c(1,1))
La variable aleatoria $X_A$ está lejos de ser normal debido a la componente exponencial. La no normalidad de $X_A$ resultados en el gráfico Q-Q marcadamente no lineal de la derecha.
La prueba de Shapiro-Wilk es una de las varias pruebas de normalidad. A grandes rasgos, mide el grado de no linealidad en el gráfico gráfico Q-Q. Así que no hay que juzgar la "linealidad" sólo a ojo.
Aquí están las pruebas de Shapiro-Wilk para $X_H$ con valor P muy por encima del 5% (consistente con la normalidad), y para $X_A$ con valor P muy por debajo del 5% (no compatible con la normalidad).
shapiro.test(x.h)
## Shapiro-Wilk normality test
## data: x.h
## W = 0.9939, p-value = 0.935
shapiro.test(x.a)
## Shapiro-Wilk normality test
## data: x.a
## W = 0.9127, p-value = 5.913e-06
Para hacer una buena demostración, he utilizado muestras de tamaño moderado y una alternativa $X_A$ que está lejos de ser normal. Para muestras más pequeñas o para alternativas que son más normales, no se pueden esperar resultados tan claros resultados tan claros.
Esta demostración debería servirle para iniciar el camino correcto. Para más información, puedes buscar en un texto de estadística o en Internet para "gráfico de probabilidad normal", "gráfico de cuantiles", "gráfico Q-Q", "pruebas de normalidad", etc.