No, el p-valor de una asintóticamente válidos distribución no es siempre menor que una exacta p-valor. Consideremos dos ejemplos de la tradicional "no paramétricas" pruebas:
La Wilcoxon Rank Sum Test para la ubicación de cambio (e.g, mediana) para dos muestras independientes de tamaño $n_{1}$ $n_{2}$ calcula el estadístico de prueba de la siguiente manera:
- poner todos los valores observados en una muestra grande de tamaño $N = n_{1} + n_{2}$
- el rango de estos valores de $1, \ldots, N$
- la suma de los rangos para el primer grupo, llame a esta $L_{N}^{+}$. A menudo, la prueba estadística se define como el $W = L_{N}^{+} - \frac{n_{1} (n_{1} + 1)}{2}$ (este estadístico de prueba es igual a la u de Mann-Whitney U), pero esto no importa para la distribución de la forma.
La distribución exacta de $L_{N}^{+}$ fijos $n_{1}$ $n_{2}$ se encuentra por la generación de todos los ${N \choose n_{1}}$ posibles combinaciones de rangos para el primer grupo, y el cálculo de la suma en cada caso. La aproximación asintótica usa $z := \frac{L_{n}^{+} - n_{1} (N+1) / 2}{\sqrt{(n_{1} n_{2} (N+1)) / 12}} \sim N(0, 1)$, es decir, un estándar de la aproximación normal de la $z$transformadas por el estadístico de prueba.
Del mismo modo, el test de Kruskal-Wallis-H-Test para la ubicación de cambio (por ejemplo, la mediana) por $p$ de las muestras independientes se utiliza una prueba estadística basada en la clasificación sumas $R_{+j}$ en cada grupo $j$: $H := \frac{12}{N (N+1)} \sum\limits_{j=1}^{p}{\frac{1}{n_{j}} \left(R_{+j} - n_{j} \frac{N+1}{2}\right)^{2}}$. De nuevo, la distribución exacta de H se encuentra mediante la generación de todas las combinaciones de los rangos de los grupos. Para los 3 grupos, se ${N \choose n_{1}} {N-n_{1} \choose n_{2}}$ tales combinaciones. La aproximación asintótica utiliza un $\chi^{2}_{p-1}$ distribución.
Ahora podemos comparar las formas de distribución en términos de la función de distribución acumulativa $F()$ dado el tamaño de los grupos. El (lado derecho) p-valor para un determinado valor de $t$ de la prueba estadística es igual a $1-F(t)$ para la distribución continua. En el caso discreto, el p-valor de $t_{m}$ ($m$- ésimo valor posible para el estadístico de prueba) es $1-F(t_{m-1})$. El diagrama muestra que la distribución exacta produce a veces grandes, a veces los más pequeños los valores de p, en el H-prueba: Por $H = 5$ (32 de 36 posibles H-valores), el p-valor es de 0,075 (sum(dKWH_08[names(dKWH_08) >= 5])
con el código de abajo), mientras que el aproximado de p-valor es 0.082085 (1-pchisq(5, P-1)
). Para $H = 2$ (15 valor posible), el p-valor es 0.425 (sum(dKWH_08[names(dKWH_08) >= 2])
), la aproximada es igual a 0.3678794 (1-pchisq(2, P-1)
).
#### Wilcoxon-Rank-Sum-Test: exact distribution
n1 <- 5 # group size 1
n2 <- 4 # group size 2
N <- n1 + n2 # total sample size
ranks <- t(combn(1:N, n1)) # all possible ranks for group 1
LnPl <- apply(ranks, 1, sum) # all possible rank sums for group 1 (Ln+)
dWRS_9 <- table(LnPl) / choose(N, n1) # exact probability function for Ln+
pWRS_9 <- cumsum(dWRS_9) # exact cumulative distribution function for Ln+
muLnPl <- (n1 * (N+1)) / 2 # normal approximation: theoretical mean
varLnPl <- (n1*n2 * (N+1)) / 12 # normal approximation: theoretical variance
#### Kruskal-Wallis-H-Test: exact distribution
P <- 3 # number of groups
Nj <- c(3, 3, 2) # group sizes
N <- sum(Nj) # total sample size
IV <- rep(1:P, Nj) # factor group membership
library(e1071) # for permutations()
permMat <- permutations(N) # all permutations of total sample
getH <- function(rankAll) { # function to calc H for one permutation
Rj <- tapply(rankAll, IV, sum)
H <- (12 / (N*(N+1))) * sum((1/Nj) * (Rj-(Nj*(N+1) / 2))^2)
}
Hscores <- apply(permMat, 1, getH) # all possible H values for given group sizes
dKWH_08 <- table(round(Hscores, 4)) / factorial(N) # exact probability function
pKWH_08 <- cumsum(dKWH_08) # exact cumulative distribution function
Tenga en cuenta que para calcular la distribución exacta de horas por generar todas las permutaciones, no todas las combinaciones. Esto es innecesario, y computacionalmente mucho más caro, pero es más sencillo de escribir, en el caso general... Ahora hacer la trama de la comparación de la función de las formas.
dev.new(width=12, height=6.5)
par(mfrow=c(1, 2), cex.main=1.2, cex.lab=1.2)
plot(names(pWRS_9), pWRS_9, main="Wilcoxon RST, N=(5, 4): exact vs. asymptotic",
type="n", xlab="ln+", ylab="P(Ln+ <= ln+)", cex.lab=1.4)
curve(pnorm(x, mean=muLnPl, sd=sqrt(varLnPl)), lwd=2, n=200, add=TRUE)
points(names(pWRS_9), pWRS_9, pch=16, col="red")
abline(h=0.95, col="blue")
legend(x="bottomright", legend=c("exact", "asymptotic"),
pch=c(16, NA), col=c("red", "black"), lty=c(NA, 1), lwd=c(NA, 2))
plot(names(pKWH_08), pKWH_08, type="n", main="Kruskal-Wallis-H, N=(3, 3, 2):
exact vs. asymptotic", xlab="h", ylab="P(H <= h)", cex.lab=1.4)
curve(pchisq(x, P-1), lwd=2, n=200, add=TRUE)
points(names(pKWH_08), pKWH_08, pch=16, col="red")
abline(h=0.95, col="blue")
legend(x="bottomright", legend=c("exakt", "asymptotic"),
pch=c(16, NA), col=c("red", "black"), lty=c(NA, 1), lwd=c(NA, 2))
Tenga en cuenta que estas pruebas requieren que las distribuciones tienen la misma forma en cada grupo, de lo contrario no son una prueba de ubicación solo.