5 votos

¿Equivalente de la prueba de Kolmogorov-Smirnov para datos enteros?

¿Existe un equivalente de la prueba de Kolmogorov-Smirnov de dos muestras para datos enteros (no para datos de recuento, ya que puede incluir enteros negativos)?

La prueba de Kolmogorov-Smirnov no funciona bien en presencia de muchos empates, que obviamente son comunes con los números enteros.

9voto

En Prueba de permutación también podría aplicarse en este caso. La idea es la siguiente.

Sea X1,...,XmFX1,...,XmF y Y1,...,YnGY1,...,YnG sean dos muestras independientes y consideremos la comprobación de la hipótesis H0:F=GH0:F=G vs. H1:FGH1:FG . Para ello, etiquete sus datos del siguiente modo

1X11X21Xm2Y12Y22Yn

Ahora, dejemos que T sea un estadístico de la muestra S={X1,...,Xm,Y1,...,Yn} y las etiquetas L={1,1,...,2,2,...,2} .

Si H0 es verdadera, entonces el etiquetado es superfluo.

Ahora, permute las etiquetas de los grupos y vuelva a calcular la estadística de la prueba un gran número de veces, por ejemplo B .

El valor p unilateral de esta prueba se calcula como la proporción de permutaciones muestreadas en las que la diferencia de medias fue mayor o igual que T(S,L) . El valor p bilateral de la prueba se calcula como la proporción de permutaciones muestreadas en las que la diferencia absoluta fue mayor o igual que abs(T(S,L)) . Véase

Un ejemplo de juguete

Sea XiPoisson(10) , i=1,...,m=100 y YjPoisson(11) , j=1,...,n=100 . Considere la estadística T=mean of Group 1mean of Group 2 . A continuación se aplica el método de permutación que utiliza este estadístico.

rm(list=ls)
set.seed(1)
# Sample size
ns=100
#Simulated data
x = rpois(ns,11)
y = rpois(ns,10)

# Observed statistic    
T.obs = mean(x) - mean(y)

# Pooled data
SL = rbind(cbind(rep(1,ns),x),cbind(rep(2,ns),y))

# Resampling
B=10000
T = rep(0,B)

for(i in 1:B){
samp = sample(SL[,1])
ind1 = which(samp==1)
ind2 = which(samp==2)
T[i] = mean( SL[ind1,2] )- mean( SL[ind2,2] )
}

# p-value
p.value = length(which(abs(T)>abs(T.obs)))/B

No sé hasta qué punto es robusto este método, pero después de algunos experimentos parece funcionar moderadamente bien. Obsérvese que la elección del T es abierta y, por lo tanto, hay que tener cuidado al hacer una elección significativa en el contexto de su problema, ya que el rendimiento depende tanto de la estadística como del tamaño de la muestra.

Espero que esto ayude.

5voto

mat_geek Puntos 1367

Yo sugeriría la prueba de ji cuadrado de dos muestras, en la que se dividen los datos en cubos y se compara el total dividido en cubos con un "número esperado" que caería dentro del cubo sobre la base de la muestra agrupada. Esto tiene una generalización a k mayor que 2. Estoy asumiendo que usted no está requiriendo otra prueba de la forma cdf emprical. Creo que toda esa clase de prueba podría tener algunos problemas cuando hay muchos empates.

Aquí es una referencia que muestra con precisión cómo se calcula el estadístico de la prueba chi cuadrado de dos muestras junto con los grados de libertad para la distribución asintótica chi cuadrado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X