53 votos

Estadística de orden aproximado para variables aleatorias normales

¿Existen fórmulas bien conocidas para los estadísticos de orden de ciertas distribuciones aleatorias? En particular, los estadísticos de primer y último orden de una variable aleatoria normal normal, pero también se agradecería una respuesta más general.

Editar: Para aclarar, estoy buscando fórmulas aproximadas que puedan ser evaluadas más o menos explícitamente, no la expresión integral exacta.

Por ejemplo, he visto las siguientes dos aproximaciones para el estadístico de primer orden (es decir, el mínimo) de una rv normal:

$e_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma$

y

$e_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma$

El primero de ellos, para $n=200$ da aproximadamente $e_{1:200} \geq \mu - 10\sigma$ lo que parece un límite muy flojo.

El segundo da $e_{1:200} \approx \mu - 2.58\sigma$ mientras que un rápido Monte Carlo da $e_{1:200} \approx \mu - 2.75\sigma$ , por lo que no es una mala aproximación, pero tampoco es genial, y lo más importante es que no tengo ninguna intuición sobre su procedencia.

¿Alguna ayuda?

39voto

John with waffle Puntos 3472

La referencia clásica es Royston (1982)[1] que tiene algoritmos que van más allá de las fórmulas explícitas. También cita una conocida fórmula de Blom (1958): $E(r:n) \approx \mu + \Phi^{-1}(\frac{r-\alpha}{n-2\alpha+1})\sigma$ con $\alpha=0.375$ . Esta fórmula da un multiplicador de -2,73 para $n=200, r=1$ .

[1]: Algoritmo AS 177: Estadística de orden normal esperado (exacta y aproximada) J. P. Royston Revista de la Real Sociedad de Estadística. Series C (Applied Statistics) Vol. 31, No. 2 (1982), pp. 161-165

28voto

patfla Puntos 1

$$\newcommand{\Pr}{\mathrm{Pr}}\newcommand{\Beta}{\mathrm{Beta}}\newcommand{\Var}{\mathrm{Var}}$$ La distribución del estadístico de orden i de cualquier variable aleatoria continua con una FDP viene dada por la distribución compuesta "beta-F". La forma intuitiva de pensar en esta distribución, es considerar el estadístico de orden ith en una muestra de $N$ . Ahora, para que el valor del estadístico de orden i de una variable aleatoria $X$ para que sea igual a $x$ necesitamos 3 condiciones:

  1. $i-1$ valores siguientes $x$ , esto tiene una probabilidad $F_{X}(x)$ para cada observación, donde $F_X(x)=\Pr(X<x)$ es la FCD de la variable aleatoria X.
  2. $N-i$ los valores anteriores $x$ , esto tiene una probabilidad $1-F_{X}(x)$
  3. 1 valor dentro de un intervalo infinitesimal que contiene $x$ , esto tiene una probabilidad $f_{X}(x)dx$ donde $f_{X}(x)dx=dF_{X}(x)=\Pr(x<X<x+dx)$ es la PDF de la variable aleatoria $X$

Hay ${N \choose 1}{N-1 \choose i-1}$ formas de hacer esta elección, por lo que tenemos:

$$f_{i}(x_{i})=\frac{N!}{(i-1)!(N-i)!}f_{X}(x_{i})\left[1-F_{X}(x_{i})\right]^{N-i}\left[F_{X}(x_{i})\right]^{i-1}dx$$

EDITAR en mi post original, hice un intento muy pobre de ir más allá de este punto, y los comentarios de abajo lo reflejan. He intentado rectificar esto a continuación

Si tomamos el valor medio de este pdf obtenemos:

$$E(X_{i})=\int_{-\infty}^{\infty} x_{i}f_{i}(x_{i})dx_{i}$$

Y en esta integral, hacemos el siguiente cambio de variable $p_{i}=F_{X}(x_{i})$ (tomando la pista de @henry), y la integral se convierte en

$$E(X_{i})=\int_{0}^{1} F_{X}^{-1}(p_{i})\Beta(p_{i}|i,N-i+1)dp_{i}=E_{\Beta(p_{i}|i,N-i+1)}\left[F_{X}^{-1}(p_{i})\right]$$

Así que este es el valor esperado de la FCD inversa, que puede ser bien aproximado usando el método delta para dar:

$$E_{\Beta(p_{i}|i,N-i+1)}\left[F_{X}^{-1}(p_{i})\right]\approx F_{X}^{-1}\left[E_{\Beta(p_{i}|i,N-i+1)}\right]=F_{X}^{-1}\left[\frac{i}{N+1}\right]$$

Para hacer una mejor aproximación, podemos expandir al 2º orden (el primo denota la diferenciación), y observando que la segunda derivada de una inversa es:

$$\frac{\partial^{2}}{\partial a^{2}}F_{X}^{-1}(a)=-\frac{F_{X}^{''}(F_{X}^{-1}(a))}{\left[F_{X}^{'}(F_{X}^{-1}(a))\right]^{3}}=-\frac{f_{X}^{'}(F_{X}^{-1}(a))}{\left[f_{X}(F_{X}^{-1}(a))\right]^{3}}$$

Dejemos que $\nu_{i}=F_{X}^{-1}\left[\frac{i}{N+1}\right]$ . Entonces tenemos:

$$E_{\Beta(p_{i}|i,N-i+1)}\left[F_{X}^{-1}(p_{i})\right]\approx F_{X}^{-1}\left[\nu_{i}\right]-\frac{\Var_{\Beta(p_{i}|i,N-i+1)}\left[p_{i}\right]}{2}\frac{f_{X}^{'}(\nu_{i})}{\left[f_{X}(\nu_{i})\right]^{3}}$$ $$=\nu_{i}-\frac{\left(\frac{i}{N+1}\right)\left(1-\frac{i}{N+1}\right)}{2(N+2)}\frac{f_{X}^{'}(\nu_{i})}{\left[f_{X}(\nu_{i})\right]^{3}}$$

Ahora, especializando al caso normal tenemos $$f_{X}(x)=\frac{1}{\sigma}\phi(\frac{x-\mu}{\sigma})\rightarrow f_{X}^{'}(x)=-\frac{x-\mu}{\sigma^{3}}\phi(\frac{x-\mu}{\sigma})=-\frac{x-\mu}{\sigma^{2}}f_{X}(x)$$ $$F_{X}(x)=\Phi(\frac{x-\mu}{\sigma})\implies F_{X}^{-1}(x)=\mu+\sigma\Phi^{-1}(x)$$

Tenga en cuenta que $f_{X}(\nu_{i})=\frac{1}{\sigma}\phi\left[\Phi^{-1}\left(\frac{i}{N+1}\right)\right]$ Y la expectativa se convierte aproximadamente en:

$$E[x_{i}]\approx \mu+\sigma\Phi^{-1}\left(\frac{i}{N+1}\right)+\frac{\left(\frac{i}{N+1}\right)\left(1-\frac{i}{N+1}\right)}{2(N+2)}\frac{\sigma\Phi^{-1}\left(\frac{i}{N+1}\right)}{\left[\phi\left[\Phi^{-1}\left(\frac{i}{N+1}\right)\right]\right]^{2}}$$

Y por último:

$$E[x_{i}]\approx \mu+\sigma\Phi^{-1}\left(\frac{i}{N+1}\right)\left[1+\frac{\left(\frac{i}{N+1}\right)\left(1-\frac{i}{N+1}\right)}{2(N+2)\left[\phi\left[\Phi^{-1}\left(\frac{i}{N+1}\right)\right]\right]^{2}}\right]$$

Aunque como ha señalado @whuber, esto no será preciso en las colas. De hecho creo que puede ser peor, debido a la asimetría de una beta con diferentes parámetros

16voto

james Puntos 11

La respuesta de Aniko se basa en la conocida fórmula de Blom que implica una elección de $\alpha = 3/8$ . Resulta que esta fórmula es en sí misma una mera aproximación a una respuesta exacta debida a G. Elfving (1947), La distribución asintótica del rango en muestras de una población normal , Biometrika, Vol. 34, pp. 111-119. La fórmula de Elfving se dirige al mínimo y al máximo de la muestra, para lo cual la elección correcta de alfa es $\pi/8$ . La fórmula de Blom resulta cuando aproximamos $\pi$ por $3$ .

Al utilizar la fórmula de Elfving en lugar de la aproximación de Blom, obtenemos un multiplicador de -2,744165. Este número está más cerca de la respuesta exacta de Erik P. (-2,746) y de la aproximación de Montecarlo (-2,75) que de la aproximación de Blom (-2,73), y es más fácil de aplicar que la fórmula exacta.

11voto

Dependiendo de lo que quieras hacer, esta respuesta puede o no ser de ayuda - yo obtuve la siguiente fórmula exacta de Paquete de estadísticas de Maple .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

$$\int _{-\infty }^{\infty }\!1/2\,{\frac {{\it \_t0}\,n!\,\sqrt {2}{ {\rm e}^{-1/2\,{{\it \_t0}}^{2}}} \left( 1/2-1/2\, {{\rm erf}\left(1/2\,{\it \_t0}\,\sqrt {2}\right)} \right) ^{-1+n}}{ \left( -1+n \right) !\,\sqrt {\pi }}}{d{\it \_t0}}$$

Por sí mismo no es muy útil (y probablemente podría derivarse fácilmente a mano, ya que es el mínimo de $n$ variables aleatorias), pero permite una aproximación rápida y muy precisa para valores dados de $n $ - mucho más precisa que la de Montecarlo:

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

da -2,746042447 y -2,746042447451154492412344, respectivamente.

(Revelación completa: yo mantengo este paquete).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X