8 votos

Hace una prueba exacta de siempre producirá un mayor valor de P, a continuación, un aproximado de prueba?

Me encontré con una simulación en la que para la prueba de mcnemar, y la respuesta parecía ser que sí.

Me preguntaba si este puede ser siempre dijo ser el caso que el valor de P es mayor (o no menor), entonces el valor de p que se llega a través de una aproximación.

algo de código de ejemplo:

set.seed(234)
n <- 100 # number of total subjects
P <- numeric(100)
P_exact <- numeric(100)
for(i in 1:100)
{
x = table(sample(1:2, n, T), sample(1:2, n, T))
P[i] <- mcnemar.test(x, correct = F)$p.v
P_exact[i] <- binom.test(x[2,1],x[1,2]+x[2,1])$p.valu
}

#for different n - the level of problem is worse
#plot(jitter(P,0,.01), P_exact )
plot(P, P_exact )
abline(0,1)

14voto

ashwnacharya Puntos 3144

No, el p-valor de una asintóticamente válidos distribución no es siempre menor que una exacta p-valor. Consideremos dos ejemplos de la tradicional "no paramétricas" pruebas:

La Wilcoxon Rank Sum Test para la ubicación de cambio (e.g, mediana) para dos muestras independientes de tamaño $n_{1}$ $n_{2}$ calcula el estadístico de prueba de la siguiente manera:

  1. poner todos los valores observados en una muestra grande de tamaño $N = n_{1} + n_{2}$
  2. el rango de estos valores de $1, \ldots, N$
  3. la suma de los rangos para el primer grupo, llame a esta $L_{N}^{+}$. A menudo, la prueba estadística se define como el $W = L_{N}^{+} - \frac{n_{1} (n_{1} + 1)}{2}$ (este estadístico de prueba es igual a la u de Mann-Whitney U), pero esto no importa para la distribución de la forma.

La distribución exacta de $L_{N}^{+}$ fijos $n_{1}$ $n_{2}$ se encuentra por la generación de todos los ${N \choose n_{1}}$ posibles combinaciones de rangos para el primer grupo, y el cálculo de la suma en cada caso. La aproximación asintótica usa $z := \frac{L_{n}^{+} - n_{1} (N+1) / 2}{\sqrt{(n_{1} n_{2} (N+1)) / 12}} \sim N(0, 1)$, es decir, un estándar de la aproximación normal de la $z$transformadas por el estadístico de prueba.

Del mismo modo, el test de Kruskal-Wallis-H-Test para la ubicación de cambio (por ejemplo, la mediana) por $p$ de las muestras independientes se utiliza una prueba estadística basada en la clasificación sumas $R_{+j}$ en cada grupo $j$: $H := \frac{12}{N (N+1)} \sum\limits_{j=1}^{p}{\frac{1}{n_{j}} \left(R_{+j} - n_{j} \frac{N+1}{2}\right)^{2}}$. De nuevo, la distribución exacta de H se encuentra mediante la generación de todas las combinaciones de los rangos de los grupos. Para los 3 grupos, se ${N \choose n_{1}} {N-n_{1} \choose n_{2}}$ tales combinaciones. La aproximación asintótica utiliza un $\chi^{2}_{p-1}$ distribución.

Ahora podemos comparar las formas de distribución en términos de la función de distribución acumulativa $F()$ dado el tamaño de los grupos. El (lado derecho) p-valor para un determinado valor de $t$ de la prueba estadística es igual a $1-F(t)$ para la distribución continua. En el caso discreto, el p-valor de $t_{m}$ ($m$- ésimo valor posible para el estadístico de prueba) es $1-F(t_{m-1})$. El diagrama muestra que la distribución exacta produce a veces grandes, a veces los más pequeños los valores de p, en el H-prueba: Por $H = 5$ (32 de 36 posibles H-valores), el p-valor es de 0,075 (sum(dKWH_08[names(dKWH_08) >= 5]) con el código de abajo), mientras que el aproximado de p-valor es 0.082085 (1-pchisq(5, P-1)). Para $H = 2$ (15 valor posible), el p-valor es 0.425 (sum(dKWH_08[names(dKWH_08) >= 2])), la aproximada es igual a 0.3678794 (1-pchisq(2, P-1)).

enter image description here

#### Wilcoxon-Rank-Sum-Test: exact distribution
n1      <- 5                           # group size 1
n2      <- 4                           # group size 2
N       <- n1 + n2                     # total sample size
ranks   <- t(combn(1:N, n1))           # all possible ranks for group 1
LnPl    <- apply(ranks, 1, sum)        # all possible rank sums for group 1 (Ln+)
dWRS_9  <- table(LnPl) / choose(N, n1) # exact probability function for Ln+
pWRS_9  <- cumsum(dWRS_9)              # exact cumulative distribution function for Ln+
muLnPl  <- (n1    * (N+1)) /  2        # normal approximation: theoretical mean
varLnPl <- (n1*n2 * (N+1)) / 12        # normal approximation: theoretical variance

#### Kruskal-Wallis-H-Test: exact distribution
P  <- 3                                # number of groups
Nj <- c(3, 3, 2)                       # group sizes
N  <- sum(Nj)                          # total sample size
IV <- rep(1:P, Nj)                     # factor group membership
library(e1071)                         # for permutations()
permMat <- permutations(N)             # all permutations of total sample
getH <- function(rankAll) {            # function to calc H for one permutation
    Rj <- tapply(rankAll, IV, sum)
    H  <- (12 / (N*(N+1))) * sum((1/Nj) * (Rj-(Nj*(N+1) / 2))^2)
}

Hscores <- apply(permMat, 1, getH)     # all possible H values for given group sizes
dKWH_08 <- table(round(Hscores, 4)) / factorial(N)  # exact probability function
pKWH_08 <- cumsum(dKWH_08)             # exact cumulative distribution function

Tenga en cuenta que para calcular la distribución exacta de horas por generar todas las permutaciones, no todas las combinaciones. Esto es innecesario, y computacionalmente mucho más caro, pero es más sencillo de escribir, en el caso general... Ahora hacer la trama de la comparación de la función de las formas.

dev.new(width=12, height=6.5)
par(mfrow=c(1, 2), cex.main=1.2, cex.lab=1.2)
plot(names(pWRS_9), pWRS_9, main="Wilcoxon RST, N=(5, 4): exact vs. asymptotic",
     type="n", xlab="ln+", ylab="P(Ln+ <= ln+)", cex.lab=1.4)
curve(pnorm(x, mean=muLnPl, sd=sqrt(varLnPl)), lwd=2, n=200, add=TRUE)
points(names(pWRS_9), pWRS_9, pch=16, col="red")
abline(h=0.95, col="blue")
legend(x="bottomright", legend=c("exact", "asymptotic"),
       pch=c(16, NA), col=c("red", "black"), lty=c(NA, 1), lwd=c(NA, 2))

plot(names(pKWH_08), pKWH_08, type="n", main="Kruskal-Wallis-H, N=(3, 3, 2):
     exact vs. asymptotic", xlab="h", ylab="P(H <= h)", cex.lab=1.4)
curve(pchisq(x, P-1), lwd=2, n=200, add=TRUE)
points(names(pKWH_08), pKWH_08, pch=16, col="red")
abline(h=0.95, col="blue")
legend(x="bottomright", legend=c("exakt", "asymptotic"),
       pch=c(16, NA), col=c("red", "black"), lty=c(NA, 1), lwd=c(NA, 2))

Tenga en cuenta que estas pruebas requieren que las distribuciones tienen la misma forma en cada grupo, de lo contrario no son una prueba de ubicación solo.

3voto

Uri Puntos 111

No siempre, aunque por lo general. Supongo que depende de la especie de la estadística de la prueba. Me sentó y trató de Pearson chi-cuadrado y la razón de Verosimilitud chi-cuadrado de 20 por 100 de los casos de conjuntos de datos. Para Pearson, he encontrado exacto significado a ser menor que la significación asintótica aproximadamente el 10% del tiempo. Para LR - 0%. A continuación es un ejemplo de una tabla de frecuencias y de las pruebas, donde Pearson chi-square tiene la exacta sig. menor que el asintótica sig.

7   12   4
26  12  17
6   10   6

Chi-Square Tests
                    Value      df   Asymp. Sig. (2-sided)   Exact Sig. (2-sided)
Pearson Chi-Square  8.756(a)    4       .068                   .067
Likelihood Ratio    8.876       4       .064                   .073

a   0 cells (.0%) have expected count less than 5. The minimum expected count is 5.94.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X