5 votos

Un error de Sigma e intervalo de tolerancia del 68%

Tengo una clarificación de la pregunta, y la segunda, una pregunta acerca de cómo hacer algo, dependiendo de la respuesta a la primera pregunta.

Suponga que tiene un conjunto de datos de algunos PDF que es no-gaussiano.

  1. El estándar de la ecuación de la desviación estándar de la muestra de un archivo PDF está dada por $$ s = \sqrt{\frac{1}{N-1} \sum_{i=1}^{N} (x_i - \bar{x})^2} $$ Esto es independiente de los PDF, Gaussiana o de otra manera. Ahora, para una distribución de Gauss, la desviación estándar representa un 1-sigma, que equivale a la que contiene el 68% de los datos, de lo contrario se conoce como el 68% intervalo de tolerancia. En suma, de 1 sigma = 68%, para una Gaussiana. Este no es necesariamente el caso para los no-Gaussianas. Todavía puedo calcular la desviación estándar a partir de la ecuación anterior, pero eso no significa necesariamente que el 1-sigma contiene 68% de los datos. Puede ser más o menos, dependiendo del PDF. Es mi entendimiento de cómo funciona esto. Si mi lógica o de la comprensión es defectuoso, por favor me corrija.

  2. La segunda pregunta que tengo es en el cálculo del 68% intervalo de tolerancia para un no-Gaussiano PDF. Puedo calcular el $s$ como se describió anteriormente, pero como se ha dicho (y suponiendo true) este no es el 68% intervalo de tolerancia estoy después. Ahora, en la actualidad en el trabajo con mis datos, yo sólo calcular un único valor de la PDF en un momento y no a mantener una colección de todos los valores, o incluso una forma funcional de la PDF. Como tal, tengo que calcular la media a través de mantener una suma de ejecución y dividiendo por el número total de valores. Me calcular el $s$ a través de un tipo similar a la del método conocido como Welford del método. Ninguno de estos cálculos es necesario conocer mi forma de PDF o incluso a sabiendas de todos los valores de mis datos a la vez. Puedo generar con ellos sobre la marcha. Pero, ¿cómo puedo calcular el 68% intervalo de tolerancia por sólo la generación de valores sobre la marcha como soy? La única forma que conozco para obtener el 68% intervalo de tolerancia es saber el PDF, obtener un CDF, y marque la correcta porcentajes. Siento que debe haber algún algoritmo inteligente para hacer esto sin saber el PDF o CDF aunque.

5voto

jldugger Puntos 7490

La pregunta se establece un contexto que sugiere que una distribución libre de intervalo de tolerancia es necesario. Esto significa

  • Una forma específica para la distribución no serán asumidos.

  • Los extremos del intervalo se calcula a partir de los datos.

  • El intervalo es la intención de encerrar en una determinada cantidad de la distribución, tales como su medio de 68%. Cuando se entiende que esta cantidad se aplicará a la media de la distribución, el intervalo de tolerancia que se dice ser simétrica y de dos caras y el importe $\gamma = 68\%$ se llama su cobertura.

  • Debido a que el intervalo se basa en una muestra aleatoria, es aleatorio. Se desea controlar la posibilidad de que se falle a alcanzar al menos la cobertura necesaria. Dejar que esta oportunidad se limita a un valor de $\alpha$. (A menudo $\alpha$ es el elegido para ser alrededor de $0.05 = 5\%$.) El valor de $1-\alpha$ se llama a la confianza del intervalo.

La solución es modificar una línea de cuantil procedimiento de estimación en el fin de mantener una cuenta corriente de la orden de las estadísticas necesarias para acotar el intervalo de tolerancia. Esta respuesta se explica en estos términos, se deriva de la necesaria fórmulas (que son muy simples, sólo se requiere la capacidad para calcular Binomio de cuantiles), da referencias a los correspondientes algoritmos, y proporciona código de trabajo para calcular las no paramétricas intervalos de tolerancia.

El estándar de referencia, que puede servir tanto como un libro de texto y un manual--es

Gerald J. Hahn y William P. Meeker, de Estadística de Intervalos. Una Guía para los Profesionales. John Wiley & Sons, 1991.

(Proyecto de ley Meeker me dijo recientemente que una nueva edición que saldrá pronto.)


Como en muchos procedimientos no paramétricos, tales intervalos se basan en las estadísticas de orden. Estos son los valores de los datos ordenados, que podemos suponer se trata de la realización de variables aleatorias

$$X_1 \le X_2 \le \cdots \le X_n.$$

The interval will be bounded by two of these order statistics, $X_l \le X_u$. To determine which indexes should be used for $l$ and $u$, use the defining criteria:

  1. Symmetry: $l+u$ should be as near to $n+1$ como sea posible.

  2. Cobertura y confianza: la probabilidad de que el intervalo de $[X_l, X_u]$ no alcanza a cubrir, al menos, $\gamma$ de la distribución subyacente $F$ debe ser en la mayoría de las $\alpha$.

Tenemos que calcular esta probabilidad de fracaso, que es

$${\Pr}_F(F(X_u) - F(X_l) \lt \gamma).$$

If we only assume $F$ is continuous (which means ties are impossible), applying the probability integral transform shows that

$${\Pr}_F(F(X_u) - F(X_l) \lt \gamma) = \Pr(Y_u - Y_l \lt \gamma)$$

for order statistics $Y_u$ and $Y_l$ obtained from $n$ independent uniformly distributed variables (on the interval $[0,1]$). Their joint density is

$$f_{l,u}(y_l, y_u) = \binom{n}{l-1, 1, u-l-1, 1, n-u} (y_l)^{l-1}(y_u-y_l)^{u-l-1}(1-y_u)^{n-u},$$

defined for all $0 \le y_l \le y_u \le 1$. The multinomial coefficient can be computed as

$$\binom{n}{l-1, 1, u-l-1, 1, n-u} = \frac{n!}{(l-1)!(u-l-1)!(n-u)!}.$$

Recognizing $y_u-y_l$ as the quantity we want to work with, change variables to $y_u-y_l = z$, so that $y_u = y_l + z$. The Jacobian of this transformation has unit determinant, so all we need to do is substitute and integrate out $y_l$:

$$f_{l,u}(z) = z^{u-l-1}\frac{n!}{(l-1)!(u-l-1)!(n-u)!}\int_0^{1-z} (y_l)^{l-1}(1-y_l-z)^{n-u}dy_l$$

The substitution $y_l = (1-z)x$ does the trick, giving

$$f_{l,u}(z) = \frac{n!}{(l+n-u)!(u-l-1)!}z^{u-l-1}(1-z)^{l+n-u}.$$

It is a Beta$(u-l, l+n-u+1)$ distribution. Equivalently, the chance that $Z \lt \gamma$ is given by the upper tail of the associated Binomial distribution:

$$\Pr(Z \lt \gamma) = \sum_{j=u-l}^n \binom{n}{j}\gamma^j(1-\gamma)^{n-j}.$$

La solución es

Seleccione $u$$l$, de modo que (1) $u+l$ está cerca de a $n$ y (2) $u+l-1$ igual o superior al $1-\alpha$ cuantil de un Binomio$(\gamma, n)$ distribución. El intervalo de tolerancia está limitada por el orden de las estadísticas de $X_l$$X_u$.

Esta es la fórmula (5.2) por Hahn Y Meeker (sin derivación).

Por CIERTO, cuando $F$ no es continua, entonces la cobertura puede ser mayor de lo que se pretendía, pero no debe ser menos. De forma equivalente, la confianza es mayor de lo que se pretendía.


Por ejemplo, con $\gamma=68\%$, $\alpha=5\%$, y una muestra de $n=100$, esta fórmula da $l=12, u=89$. El $95\%$ de confianza, $68\%$ cobertura simétrica no paramétrica intervalo de tolerancia es $[X_{12}, X_{89}]$. La razón de esto incluye a $89-12+1 = 78 = 78\%$ de los datos, en lugar de $68\%$, es la necesidad de ser $95\%$ seguro de que la cobertura de $68\%$ es realmente alcanzado.

La discrepancia entre la proporción de datos que se incluyen en este intervalo y la proporción de la distribución que debe ser cubierto será infinitamente pequeño como el tamaño de la muestra aumenta. Por lo tanto, una vez que el tamaño de la muestra es suficientemente grande, $X_l$ $X_u$ son la aproximación de las $(1-\gamma)/2$ $(1+\gamma)/2$ cuantiles de la distribución. En consecuencia, una línea de cálculo de este intervalo de tolerancia puede ser realizado por medio de un par de online cuantil cálculos..


Trabajo R código para calcular $l$$u$, junto con una simulación para el estudio de la distribución real de las coberturas, es la siguiente. Aquí es un ejemplo de su salida para una muestra de tamaño $n=100$ $l=12, u=89$ a fin de lograr la $68\%$ de cobertura con $95\%$ de confianza.

Figure: histogram of simulated coverage

Se muestra que este método funciona porque muy cerca de $95\%$ de las coberturas en estos $10,000$ muestras realmente igualado o superado $68\%$. Se promediaron alrededor de $76\%$ y a veces tengo tan grande como $89\%$. Cuando no, ellos no fallan demasiado mal, casi siempre cubriendo al menos el $60\%$ de la distribución.

#
# Nonparametric tolerance interval simulation
# See Hahn & Meeker Table A.16 and section 5.3.1.
#
gamma <- 0.68 # Coverage
alpha <- 0.05 # Size
n <- 100      # Sample size

u.m.l <- ceiling(qbinom(1-alpha, n, gamma)) + 1
u.p.l <- n + ifelse((n - u.m.l) %% 2 == 1, 1, 0)
u <- (u.p.l + u.m.l)/2 
l <- (u.p.l - u.m.l)/2 
(l + n - u + 1)              # Number removed from ends (Hahn & Meeker)
(pbeta(gamma, u-l, l+n-u+1)) # Should be barely less than alpha

set.seed(17)
n.sim <- 1e4
x.sim <- apply(matrix(runif(n.sim*n), nrow=n), 2, sort)
coverage <- x.sim[u, ] - x.sim[l, ]
hist(coverage)
abline(v=gamma, lty=3, lwd=2, col="Gray")
mean(coverage >= gamma)

1voto

Mustafa M. Eisa Puntos 101

Para su puño pregunta, estás en lo correcto.

Para la segunda pregunta: Usted necesita para registrar algunos datos con el fin de ser capaz de configurar los límites en el pdf para decir, el 68% se encuentra en este intervalo. Aviso que en altas dimensiones de los casos, no sólo va a ser un intervalo, que va a ser algo de establecer límites que el 68% de la hipervolumen de su distribución, que puede ser arbitrariamente complicado si eres de las dimensiones en exceso de, digamos 3 o 4. Por lo tanto, con el fin de establecer los límites que quieres exactamente, simplemente vas a tener que recoger los datos y no sólo de corriente a través de él.

Sin embargo, puede, mediante la concentración de las desigualdades, establece límites en el 68%. Por ejemplo, considere la desigualdad de Chebyshev , que le da una cierta garantía sobre en qué medida, en el peor de los casos, el 68% de la marca de la media. Ciertamente, esto es inexacto, pero es una de las opciones sólo si usted en realidad no queremos recopilar datos. Voy a añadir que, aunque no estoy del todo seguro, sospecho que hay una investigación más reciente sobre la concentración de las desigualdades que proporcionan más estrictos límites de Chebyshev el uso de algunas otras condiciones o estimaciones (como la curtosis o sesgo). Usted puede desear mirar en que...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X