6 votos

¿Cómo sé si las muestras futuras se mantendrán por debajo de un umbral?

Tengo N muestras de cantidad x (N=40 o 50 aproximadamente; aquí ilustro 7 de ellas).

0.529578449
0.24137483
0.715602119
0.541831981
0.426401788
0.426117433
0.678243369
....

A estas puedo ajustar razonablemente, por ejemplo, una distribución normal con media 0.51 y desviación estándar 0.16.

La pregunta que debo abordar es: ¿Con qué confianza podemos afirmar que >99% de las futuras muestras de x permanecerán por debajo de un umbral dado, por ejemplo, 1.0?

Si solo leo el valor de la distribución ajustada mencionada anteriormente, dice que el 99.9% estará por debajo de 1.0. Hasta aquí todo bien.

Pero ¿qué tan bien es probable que esa distribución ajustada represente la distribución subyacente? ¿Y cómo traduzco esto en una medida de confianza?

¿Cuál sería una prueba/método relevante para abordar esto?

1 votos

Si tiene en mente un número arbitrariamente grande de muestras, entonces busca un intervalo de tolerancia. Si está preocupado por un número específico de muestras, necesita un intervalo de predicción.

0 votos

@whuber Esto sería para todas las muestras futuras, por lo que supongo que estoy buscando un "intervalo de tolerancia". Déjame investigar más al respecto. Gracias por la indicación.

3voto

Ηλίας Puntos 109

Quieres evaluar si la probabilidad $\Pr(X>1)$ es significativamente mayor que $99\%$.

Para hacerlo, puedes derivar un intervalo de confianza sobre $\Pr(X>1)$. Por ejemplo, puedes obtener tal intervalo de confianza usando el enfoque bayesiano con la prior de Jeffreys.

Otra forma es usar un límite de tolerancia inferior. Si el límite de tolerancia inferior $(1-\alpha, p=99\%)$ es mayor que $1$, entonces la probabilidad $\Pr(X>1)$ es significativamente mayor que $99\%$ en el nivel de significancia $\alpha$.

Ejemplo:

> # muestra simulada
> set.seed(666)
> y <- rnorm(40, mean=5, sd=1)
> # límite de tolerancia
> library(tolerance)
> normtol.int(y, alpha=0.05, P=0.99, side=1)
  alpha    P    x.bar 1-sided.lower 1-sided.upper
1  0.05 0.99 4.874011      1.353383      8.394639

El límite de tolerancia inferior es $\approx 1.35 > 1$, entonces $\Pr(X>1)$ es significativamente mayor que $99\%$ en el nivel de significancia $\alpha=5\%$.

Usando el enfoque bayesiano de Jeffreys:

> Jeffreys <- function(y, nsims=100000){
+   n <- length(y)
+   sigma <- sqrt(c(crossprod(y-mean(y)))/rchisq(nsims,n))
+   mu <- rnorm(nsims, mean(y), sigma/sqrt(n))
+   list(mu=mu, sigma=sigma)
+ }
> # muestreo posterior de Pr(Y>1)
> nsims <- 100000
> sims_musigma <- Jeffreys(y, nsims)
> sims_pr <- numeric(nsims)
> for(i in 1:nsims){
+   sims_pr[i] <- 1 - pnorm(1, mean=sims_musigma$mu[i], sd=sims_musigma$sigma[i])
+ }
> # límite de confianza inferior de Pr(Y>1)
> quantile(sims_pr, 0.05)
       5% 
0.9954999 

El límite de confianza inferior del $95\%$ de $\Pr(X>1)$ es $\approx 99.5\%$, entonces $\Pr(X>1)$ es significativamente mayor que $99\%$ en el nivel de significancia $\alpha=5\%$.

Si no te gusta el enfoque de Jeffreys, puedes usar estos límites de confianza aproximados de $\Pr(X>q)$:

  • límite inferior: $1 - \Phi\left[\dfrac{q-\hat\mu}{\hat\sigma}\left(1-\Phi^{-1}(1-\alpha)\sqrt{\dfrac{1}{n{\left(\dfrac{q-\hat\mu}{\hat\sigma}\right)}^2}+\dfrac{1}{2(n-1)}}\right) \right]$

  • límite superior: $1 - \Phi\left[\dfrac{q-\hat\mu}{\hat\sigma}\left(1+\Phi^{-1}(1-\alpha)\sqrt{\dfrac{1}{n{\left(\dfrac{q-\hat\mu}{\hat\sigma}\right)}^2}+\dfrac{1}{2(n-1)}}\right) \right]$

sources:

  • Bissell, A. F. (1990), "How Reliable Is Your Capability Index?" Applied Statistics, 30, 331 - 340.

  • Kushler, R. H. y Hurley, P. (1992), "Confidence Bounds for Capability Indices," Journal of Quality Technology, 24, 188 - 195.

El límite inferior es similar al anterior:

> alpha <- 5/100
> n <- length(y)
> q <- 1
> 1 - pnorm((q-mean(y))/sd(y) * (1-qnorm(1-alpha)*sqrt(1/n/((q-mean(y))/sd(y))^2 + 1/2/(n-1))))
[1] 0.9950559

0 votos

Increíble. Me imagino que los enfoques son similares para mi ejemplo con Pr(X <1) como para el tuyo con Pr(X>1), ¿con solo algunos cambios de signo esparcidos aquí y allá? Además, ¿por qué "no me gustaría" el enfoque de Jeffreys? (¿Aparte de su complejidad percibida?)

0 votos

Ah sí, perdón, pensé que estabas interesado en $\Pr(X>1)$. Es posible que no te guste el enfoque de Jeffreys si no te sientes cómodo con él, o porque requiere simulaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X