5 votos

Prueba de hipótesis: Límite para el número de observaciones de Y que superan max(X) si X = Y en la distribución

Creo que esta pregunta está relacionada con la Teoría de valores Extremos, un área de estadísticas que no he estudiado.

Vamos

  • $X$ $Y$ ser variables aleatorias
  • la hipótesis nula de que $X=Y$ en la distribución
  • $\{X_i\}_{i=1}^{n_X}$ ser una muestra de tamaño $n_X$ $X$ $\{Y_i\}_{i=1}^{n_Y}$ ser una muestra de tamaño $n_Y$ $Y$
  • $X_{max} = max(\{X_i\}_{i=1}^{n_X})$
  • $S = \sum_{i=1}^{n_Y} I(Y_i > X_{max}) $ donde $I$ es el indicador de la función
  • $n_Y >> n_X$ (por ejemplo,$n_Y= 100000$$n_X=500$). Esto no es una hipótesis necesaria, pero es útil para entender por qué estoy usando $S$ como un estadístico de prueba.

El objetivo es determinar cuándo $S$ es inusualmente alto, bajo la hipótesis nula. Significado, encontrar $b$ tal que se rechaza la nula al $S>b$, donde b es una muestra estadística e $P(S > b) < \alpha$ bajo el valor null. Por ejemplo, el 99 cuantil de una binomial del tamaño de la $n_Y$ y la probabilidad de $1/(n_X +1)$ (esta obligado puede ser verificada a estar mal, a través de la simulación). Puede válido $b$ ser determinado? O, más en general:

¿Cómo utilizamos $S$ para determinar si las colas de $X$ $Y$ son diferentes?

Posibles soluciones:

  • Determinar la distribución de los $S$ bajo la hipótesis nula
  • Algo que suponga el Pedido de Estadísticas
  • Algo que implican Teoría de valores Extremos

Las respuestas pueden incluir, por supuesto, los supuestos adicionales si es necesario para que esto sea manejable.

Aquí hay una guía rápida de la simulación en R (con el mal enlazado) mostrando lo que estoy buscando:

NSIM <- 1000
nX <- 500
nY <- 100000
alpha <- .01

exc <- rep(NA, NSIM)
for(i in 1:NSIM){
   cat('\r', paste0("Sim: ",i,"/", NSIM))
   X <- rnorm(nX)
   Xmax <- max(X)
   Y <- rnorm(nY)
   # b is the wrong bound
   b <- qbinom(p = 1-alpha, size = nY, prob = 1/(nX+1))
   S <-sum(Y > Xmax)
   exc[i] <- S > b
}
### This is the type I error rate
### should be around alpha=.01 if correct bound
sum(exc)/NSIM
### [1] 0.307 (usually like .27-.33)

7voto

AdamSane Puntos 1825

Razonemos como sigue.

Si la hipótesis nula es cierta, entonces, en una muestra combinada, cualquiera de las $n_X+n_Y$ observaciones tiene la misma probabilidad de ser etiquetados con $Y$ como cualquier otra observación.

Contar cuántas $Y$s palo de uno de los extremos es igual que tenemos una baraja de $n_X$ tarjetas rojas y $n_Y$ tarjetas blancas, y tratamos cartas de la parte superior de una baraja hasta que llegamos a la primera tarjeta roja, y contamos cuántas tarjetas blancas que había antes de entonces.

Así que sugeriría que el pmf bajo el null es la de un negativo hipergeométrica distribución para el número de éxitos hasta el primer fracaso, donde no se $n_Y$ éxitos y $n_X$ fallas.

Creo que se reduce a:

$$P(S=s) = \frac{{n_X+n_Y-1-s} \choose {n_Y-s}}{{n_X+n_Y}\choose{n_Y}}$$

A quick plausibility check:

Consider $n_X=2, n_Y=3$. We can compute from the above formula:

  s       0    1    2    3
P(S=s)   0.4  0.3  0.2  0.1

Now let's try a simulation to check it:

nsim=1000000L
table(replicate(nsim,{a=runif(3);b=runif(2);sum(a>max(b))}))/nsim
res
       0        1        2        3 
0.400026 0.300800 0.199712 0.099462 

That looks like we should expect.

For a given $n_X$ and $n_Y$ you can use this to find the smallest value $s_\text{crit}$ that has $P(S\geq s_\text{crit})\leq \alpha$ and then reject for any observed $s$ that is at least that large.

[Note that to do the calculations with large arguments you want a function like R's lchoose (which computes the log of ${n} \, seleccione {x}$, or failing that, at least something like its lgamma (the log of a gamma function).]

Alternatively, you can compute a p-value for some observed $s$ as $P(S\geq s)$.

It may often be more convenient to compute $P(S< s)$ and take its complement.

When $n_Y$ and $n_X$ are both very large you may be able to use a geometric approximation (with $p=\frac{n_X}{n_X+n_Y+1}$). That may at least be useful at least in figuring out about where to sum up to, to find a more accurate critical value from that approximate one.

From the look of it for your example $n$'s and $\alpha=0.01$ that approximation would work well, taking you just a few values past the required quantile; it's easy to take the cumulative sum of the pmf up to there and so have the cdf to good accuracy.

Note that if you choose not the number of $Y$'s past the largest $X$-value, but above say the $k$-th largest $X$ (e.g. the number of $Y$'s past the tenth-highest $X$), que todavía debe ser negativo hipergeométrica.

Me gustaría aconsejar a considerar el poder de las propiedades de esta prueba para las distribuciones que buscar algo así como los datos que usted tiene. Las pruebas que se parecen a esto se puede tener un gran poder en algunas situaciones, pero relativamente baja de energía en otras. En particular, si en la parte superior de la cola es más pesado que el exponencial, el poder es muy probable que a los pobres, pero si la distribución tiene una luz muy superior de la cola, el poder puede ser muy buena. Simulación para comprobar que usted puede tener una oportunidad razonable para rechazar la nula cuando usted piensa que usted debe ser capaz sería aconsejable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X