Creo que esta pregunta está relacionada con la Teoría de valores Extremos, un área de estadísticas que no he estudiado.
Vamos
- $X$ $Y$ ser variables aleatorias
- la hipótesis nula de que $X=Y$ en la distribución
- $\{X_i\}_{i=1}^{n_X}$ ser una muestra de tamaño $n_X$ $X$ $\{Y_i\}_{i=1}^{n_Y}$ ser una muestra de tamaño $n_Y$ $Y$
- $X_{max} = max(\{X_i\}_{i=1}^{n_X})$
- $S = \sum_{i=1}^{n_Y} I(Y_i > X_{max}) $ donde $I$ es el indicador de la función
- $n_Y >> n_X$ (por ejemplo,$n_Y= 100000$$n_X=500$). Esto no es una hipótesis necesaria, pero es útil para entender por qué estoy usando $S$ como un estadístico de prueba.
El objetivo es determinar cuándo $S$ es inusualmente alto, bajo la hipótesis nula. Significado, encontrar $b$ tal que se rechaza la nula al $S>b$, donde b es una muestra estadística e $P(S > b) < \alpha$ bajo el valor null. Por ejemplo, el 99 cuantil de una binomial del tamaño de la $n_Y$ y la probabilidad de $1/(n_X +1)$ (esta obligado puede ser verificada a estar mal, a través de la simulación). Puede válido $b$ ser determinado? O, más en general:
¿Cómo utilizamos $S$ para determinar si las colas de $X$ $Y$ son diferentes?
Posibles soluciones:
- Determinar la distribución de los $S$ bajo la hipótesis nula
- Algo que suponga el Pedido de Estadísticas
- Algo que implican Teoría de valores Extremos
Las respuestas pueden incluir, por supuesto, los supuestos adicionales si es necesario para que esto sea manejable.
Aquí hay una guía rápida de la simulación en R (con el mal enlazado) mostrando lo que estoy buscando:
NSIM <- 1000
nX <- 500
nY <- 100000
alpha <- .01
exc <- rep(NA, NSIM)
for(i in 1:NSIM){
cat('\r', paste0("Sim: ",i,"/", NSIM))
X <- rnorm(nX)
Xmax <- max(X)
Y <- rnorm(nY)
# b is the wrong bound
b <- qbinom(p = 1-alpha, size = nY, prob = 1/(nX+1))
S <-sum(Y > Xmax)
exc[i] <- S > b
}
### This is the type I error rate
### should be around alpha=.01 if correct bound
sum(exc)/NSIM
### [1] 0.307 (usually like .27-.33)