La pregunta se establece un contexto que sugiere que una distribución libre de intervalo de tolerancia es necesario. Esto significa
Una forma específica para la distribución no serán asumidos.
Los extremos del intervalo se calcula a partir de los datos.
El intervalo es la intención de encerrar en una determinada cantidad de la distribución, tales como su medio de 68%. Cuando se entiende que esta cantidad se aplicará a la media de la distribución, el intervalo de tolerancia que se dice ser simétrica y de dos caras y el importe $\gamma = 68\%$ se llama su cobertura.
Debido a que el intervalo se basa en una muestra aleatoria, es aleatorio. Se desea controlar la posibilidad de que se falle a alcanzar al menos la cobertura necesaria. Dejar que esta oportunidad se limita a un valor de $\alpha$. (A menudo $\alpha$ es el elegido para ser alrededor de $0.05 = 5\%$.) El valor de $1-\alpha$ se llama a la confianza del intervalo.
La solución es modificar una línea de cuantil procedimiento de estimación en el fin de mantener una cuenta corriente de la orden de las estadísticas necesarias para acotar el intervalo de tolerancia. Esta respuesta se explica en estos términos, se deriva de la necesaria fórmulas (que son muy simples, sólo se requiere la capacidad para calcular Binomio de cuantiles), da referencias a los correspondientes algoritmos, y proporciona código de trabajo para calcular las no paramétricas intervalos de tolerancia.
El estándar de referencia, que puede servir tanto como un libro de texto y un manual--es
Gerald J. Hahn y William P. Meeker, de Estadística de Intervalos. Una Guía para los Profesionales. John Wiley & Sons, 1991.
(Proyecto de ley Meeker me dijo recientemente que una nueva edición que saldrá pronto.)
Como en muchos procedimientos no paramétricos, tales intervalos se basan en las estadísticas de orden. Estos son los valores de los datos ordenados, que podemos suponer se trata de la realización de variables aleatorias
$$X_1 \le X_2 \le \cdots \le X_n.$$
The interval will be bounded by two of these order statistics, $X_l \le X_u$. To determine which indexes should be used for $l$ and $u$, use the defining criteria:
Symmetry: $l+u$ should be as near to $n+1$ como sea posible.
Cobertura y confianza: la probabilidad de que el intervalo de $[X_l, X_u]$ no alcanza a cubrir, al menos, $\gamma$ de la distribución subyacente $F$ debe ser en la mayoría de las $\alpha$.
Tenemos que calcular esta probabilidad de fracaso, que es
$${\Pr}_F(F(X_u) - F(X_l) \lt \gamma).$$
If we only assume $F$ is continuous (which means ties are impossible), applying the probability integral transform shows that
$${\Pr}_F(F(X_u) - F(X_l) \lt \gamma) = \Pr(Y_u - Y_l \lt \gamma)$$
for order statistics $Y_u$ and $Y_l$ obtained from $n$ independent uniformly distributed variables (on the interval $[0,1]$). Their joint density is
$$f_{l,u}(y_l, y_u) = \binom{n}{l-1, 1, u-l-1, 1, n-u} (y_l)^{l-1}(y_u-y_l)^{u-l-1}(1-y_u)^{n-u},$$
defined for all $0 \le y_l \le y_u \le 1$. The multinomial coefficient can be computed as
$$\binom{n}{l-1, 1, u-l-1, 1, n-u} = \frac{n!}{(l-1)!(u-l-1)!(n-u)!}.$$
Recognizing $y_u-y_l$ as the quantity we want to work with, change variables to $y_u-y_l = z$, so that $y_u = y_l + z$. The Jacobian of this transformation has unit determinant, so all we need to do is substitute and integrate out $y_l$:
$$f_{l,u}(z) = z^{u-l-1}\frac{n!}{(l-1)!(u-l-1)!(n-u)!}\int_0^{1-z} (y_l)^{l-1}(1-y_l-z)^{n-u}dy_l$$
The substitution $y_l = (1-z)x$ does the trick, giving
$$f_{l,u}(z) = \frac{n!}{(l+n-u)!(u-l-1)!}z^{u-l-1}(1-z)^{l+n-u}.$$
It is a Beta$(u-l, l+n-u+1)$ distribution. Equivalently, the chance that $Z \lt \gamma$ is given by the upper tail of the associated Binomial distribution:
$$\Pr(Z \lt \gamma) = \sum_{j=u-l}^n \binom{n}{j}\gamma^j(1-\gamma)^{n-j}.$$
La solución es
Seleccione $u$$l$, de modo que (1) $u+l$ está cerca de a $n$ y (2) $u+l-1$ igual o superior al $1-\alpha$ cuantil de un Binomio$(\gamma, n)$ distribución. El intervalo de tolerancia está limitada por el orden de las estadísticas de $X_l$$X_u$.
Esta es la fórmula (5.2) por Hahn Y Meeker (sin derivación).
Por CIERTO, cuando $F$ no es continua, entonces la cobertura puede ser mayor de lo que se pretendía, pero no debe ser menos. De forma equivalente, la confianza es mayor de lo que se pretendía.
Por ejemplo, con $\gamma=68\%$, $\alpha=5\%$, y una muestra de $n=100$, esta fórmula da $l=12, u=89$. El $95\%$ de confianza, $68\%$ cobertura simétrica no paramétrica intervalo de tolerancia es $[X_{12}, X_{89}]$. La razón de esto incluye a $89-12+1 = 78 = 78\%$ de los datos, en lugar de $68\%$, es la necesidad de ser $95\%$ seguro de que la cobertura de $68\%$ es realmente alcanzado.
La discrepancia entre la proporción de datos que se incluyen en este intervalo y la proporción de la distribución que debe ser cubierto será infinitamente pequeño como el tamaño de la muestra aumenta. Por lo tanto, una vez que el tamaño de la muestra es suficientemente grande, $X_l$ $X_u$ son la aproximación de las $(1-\gamma)/2$ $(1+\gamma)/2$ cuantiles de la distribución. En consecuencia, una línea de cálculo de este intervalo de tolerancia puede ser realizado por medio de un par de online cuantil cálculos..
Trabajo R
código para calcular $l$$u$, junto con una simulación para el estudio de la distribución real de las coberturas, es la siguiente. Aquí es un ejemplo de su salida para una muestra de tamaño $n=100$ $l=12, u=89$ a fin de lograr la $68\%$ de cobertura con $95\%$ de confianza.
Se muestra que este método funciona porque muy cerca de $95\%$ de las coberturas en estos $10,000$ muestras realmente igualado o superado $68\%$. Se promediaron alrededor de $76\%$ y a veces tengo tan grande como $89\%$. Cuando no, ellos no fallan demasiado mal, casi siempre cubriendo al menos el $60\%$ de la distribución.
#
# Nonparametric tolerance interval simulation
# See Hahn & Meeker Table A.16 and section 5.3.1.
#
gamma <- 0.68 # Coverage
alpha <- 0.05 # Size
n <- 100 # Sample size
u.m.l <- ceiling(qbinom(1-alpha, n, gamma)) + 1
u.p.l <- n + ifelse((n - u.m.l) %% 2 == 1, 1, 0)
u <- (u.p.l + u.m.l)/2
l <- (u.p.l - u.m.l)/2
(l + n - u + 1) # Number removed from ends (Hahn & Meeker)
(pbeta(gamma, u-l, l+n-u+1)) # Should be barely less than alpha
set.seed(17)
n.sim <- 1e4
x.sim <- apply(matrix(runif(n.sim*n), nrow=n), 2, sort)
coverage <- x.sim[u, ] - x.sim[l, ]
hist(coverage)
abline(v=gamma, lty=3, lwd=2, col="Gray")
mean(coverage >= gamma)