9 votos

Asintótica normalidad de las estadísticas de orden de distribuciones de colas pesadas

Antecedentes: Tengo una muestra que quiero modelar con una distribución de colas pesadas. Tengo algunos valores extremos, de modo que la dispersión de las observaciones es relativamente grande. Mi idea era modelar esto con una distribución de Pareto generalizada, y así lo he hecho. Ahora, el cuantil 0.975 de mis datos empíricos (alrededor de 100 puntos de datos) es menor que el cuantil 0.975 de la distribución de Pareto generalizada que ajusté a mis datos. Ahora, pensé, ¿hay alguna manera de verificar si esta diferencia es algo de lo que preocuparse?

Sabemos que la distribución asintótica de los cuantiles se da como:

normalidad asintótica de los cuantiles

Entonces pensé que sería una buena idea satisfacer mi curiosidad intentando trazar las bandas de confianza del 95% alrededor del cuantil 0.975 de una distribución de Pareto generalizada con los mismos parámetros que obtuve del ajuste de mis datos.

GPD

Como puedes ver, estamos trabajando con algunos valores extremos aquí. Y dado que la dispersión es tan enorme, la función de densidad tiene valores extremadamente pequeños, lo que hace que las bandas de confianza lleguen al orden de $\pm 10^{12}$ utilizando la varianza de la fórmula de normalidad asintótica arriba:

$\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2}$

Por lo tanto, esto no tiene sentido. Tengo una distribución con solo resultados positivos, y los intervalos de confianza incluyen valores negativos. Así que aquí hay algo pasando. Si calculo las bandas alrededor del cuantil 0.5, las bandas no son tan enormes, pero siguen siendo enormes.

Procedo a ver cómo va esto con otra distribución, a saber, la distribución $\mathcal{N}(1,1)$. Simulo $n=100$ observaciones de una distribución $\mathcal{N}(1,1)$ y compruebo si los cuantiles están dentro de las bandas de confianza. Hago esto 10000 veces para ver las proporciones de los cuantiles 0.975/0.5 de las observaciones simuladas que están dentro de las bandas de confianza.

    ################################################
# Prueba en el cuantil 0.975
################################################

#normal(1,1)

#encontrar cuantil 0.975
q_norm<-qnorm(0.975, mean=1, sd=1)
#encontrar valor de densidad en el cuantil 97.5:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#valor absoluto de las bandas de confianza:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Prueba en el cuantil 0.5  
#################################################################
#Usando cuantil inferior:

#normal(1,1)

#encontrar cuantil 0.7
q_norm<-qnorm(0.7, mean=1, sd=1)
#encontrar valor de densidad en el cuantil 0.7:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#valor absoluto de las bandas de confianza:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

EDICIÓN: Corregí el código y ambos cuantiles dan aproximadamente un 95% de aciertos con n=100 y con $\sigma=1$. Si aumento la desviación estándar a $\sigma=2$, entonces muy pocos aciertos están dentro de las bandas. Por lo tanto, la pregunta sigue en pie.

EDICIÓN2: Retiro lo que afirmé en la primer EDICIÓN anterior, como señalado en los comentarios por un caballero servicial. En realidad, parece que estos IC son buenos para la distribución normal.

¿Es esta normalidad asintótica de la estadística de orden un medida muy mala para usar, si uno quiere verificar si cierto cuantil observado es probable dado una cierta distribución candidata?

Intuitivamente, me parece que hay una relación entre la varianza de la distribución (la que uno piensa que creó los datos, o en mi ejemplo en R, la que sabemos que creó los datos) y el número de observaciones. Si tienes 1000 observaciones y una varianza enorme, estas bandas son malas. Si uno tiene 1000 observaciones y una varianza pequeña, estas bandas quizás tendrían sentido.

¿Alguien se anima a aclararme esto?

2 votos

Tu banda está basada en la varianza de la distribución normal asintótica, pero debería basarse en la desviación estándar de la distribución normal asintótica (banda=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2)), y de manera similar para la dist'n Pareto generalizada). Prueba eso en su lugar y mira qué sucede.

0 votos

@jbowman ¡Gracias por señalar eso! ¡Lo arreglaré!

0 votos

@jbowman eso hace que la banda sea más pequeña y en el ejemplo con mi código R eso en realidad da unos cuantos hits menos. También hubo otro error que hizo que el cálculo fuera incorrecto, pero eso ya está arreglado. Tú me llevaste a eso, ¡así que te lo agradezco mucho! Bandas más pequeñas en el caso del PIB son muy buenas noticias, pero me temo que siguen siendo tan enormes que son imposibles de usar. Todavía no puedo ver ninguna conclusión distinta a que la relación entre el tamaño de la muestra y la varianza es lo que debería ser grande, no solo el tamaño de la muestra.

3voto

Estoy asumiendo que tu derivación viene de algo así como la que está en esta página.

Tengo una distribución con solo resultados positivos y los intervalos de confianza incluyen valores negativos.

Bien, dada la aproximación normal eso tiene sentido. No hay nada que impida que una aproximación normal te dé valores negativos, razón por la cual es una mala aproximación para un valor limitado cuando el tamaño de la muestra es pequeño y/o la varianza es grande. Si aumentas el tamaño de la muestra, los intervalos se reducirán porque el tamaño de la muestra está en el denominador de la expresión para el ancho del intervalo. La varianza entra en el problema a través de la densidad: para la misma media, una mayor varianza tendrá una densidad diferente, mayor en los márgenes y menor cerca del centro. Una menor densidad significa un intervalo de confianza más amplio porque la densidad está en el denominador de la expresión. Cómo afectan juntos los cambios en el tamaño de la muestra y la varianza al ancho del intervalo de confianza y a la calidad de la aproximación dependerá de la distribución que genere los datos, así como del cuantil particular.

Al buscar un poco en Google encontré esta página, entre otras, que utiliza la aproximación normal a la distribución binomial para construir los límites de confianza. La idea básica es que cada observación cae por debajo del cuantil con probabilidad q, por lo que la distribución es binomial. Cuando el tamaño de la muestra es suficientemente grande (eso es importante), la distribución binomial se aproxima bien por una distribución normal con una media de $nq$ y varianza $nq(1-q)$. Entonces, el límite de confianza inferior tendrá un índice $j = nq - 1.96 \sqrt{nq(1-q)}$ y el límite de confianza superior tendrá un índice $k = nq - 1.96 \sqrt{nq(1-q)}$. Existe la posibilidad de que ya sea $k > n$ o $j < 1$ al trabajar con cuantiles cerca del borde, y la referencia que encontré no lo menciona. Elegí tratar simplemente el máximo o el mínimo como el valor relevante.

En la siguiente reescritura de tu código construí el límite de confianza en los datos empíricos y probé si el cuantil teórico cae dentro de eso. Eso tiene más sentido para mí, porque el cuantil del conjunto de datos observados es la variable aleatoria. La cobertura para n > 1000 es ~ 0.95. Para n = 100 es peor en 0.85, pero eso se espera para cuantiles cerca de los extremos con un tamaño de muestra pequeño.

#encontrar cuantil 0.975
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#bandas de confianza en valor absoluto (nota que depende del tamaño de la muestra)
n <- 10000
banda <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + banda)
  l <- ceiling(n * q - banda)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

En cuanto a determinar cuál es un tamaño de muestra "suficientemente grande", bueno, más grande es mejor. Si algún tamaño de muestra en particular es "suficientemente grande" depende fuertemente del problema en cuestión y de lo exigente que seas con cosas como la cobertura de tus límites de confianza.

0 votos

¡Gracias por contribuir! Señalé que no veo cómo existe una muestra "grande" absoluta, y hay que tener en cuenta la varianza. Me intriga cómo esto se relaciona con mi forma de construir los CI's, pero también en general. En cuanto a la derivación, puedes verla aquí: math.mcgill.ca/~dstephens/OldCourses/556-2006/… Los CI's que he construido siguen el ejemplo en ese enlace. Escribes que "he construido el límite de confianza en los datos empíricos..." y esto tiene más sentido para ti. ¿Podrías elaborar un poco más sobre esto en relación con mis CI's?

0 votos

Ah, sí, tenías el enlace de derivación correcto. Lo siento, mi error.

0 votos

Está bien, lo edité nuevamente para describir correctamente cómo la varianza de la distribución afecta la aproximación que estás usando, y un poco más de discusión sobre lo que significa una muestra "grande". Tu IC está centrado en el valor teórico, mientras que el mío está centrado en el empírico. Creo que para comparar un percentil empírico con uno teórico, los intervalos deberían construirse en el percentil empírico. Además, la aproximación que utilicé hace una aproximación "normal" menos porque no se recurre al teorema del límite central para comenzar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X