29 votos

¿Excepcionalidad persiste como tamaño de muestra crece?

Cuál de los siguientes es más sorprendente?

  1. En un grupo de 100 personas, la persona más alta es una pulgada más alto que la segunda persona más alta.
  2. En un grupo de mil millones de personas, la persona más alta es una pulgada más alto que la segunda persona más alta.

Poner más precisamente, supongamos que tiene una distribución normal con media $\mu$ y una desviación estándar de $\sigma$. Si nos muestra a partir de esta distribución $$ N de veces, ¿cuál es la diferencia esperada entre el más grande y el segundo más grande de los valores en nuestra muestra? En particular, no esta diferencia esperada ir de cero a $N$ crece?

En otra pregunta, se explica cómo calcular la distribución de $MAX_N$ de la máxima, pero no veo cómo extraer una estimación para el valor esperado de la máxima de que responda. A pesar de que $E(MAX_N)-E(MAX_{N-1})$ no es el número que estoy buscando, podría ser una buena estimación para determinar si el valor llega a cero $$ N se hace grande.

6voto

Martin OConnor Puntos 116

La versión exacta de la pregunta se contestó en la afirmativa en el papel de "los Extremos, Extremos Espaciamientos, y Cola Largos: Una Investigación de Algunos de los más Importantes Distribuciones," por Mudholkar, Chaubey, y Tian (Calcuta Asociación Estadística Boletín 61, 2009, pp 243-265). (Por desgracia, no he sido capaz de encontrar una copia en línea.)

Deje de $X_{i:n}$ denotar el $i$th fin de estadística a partir de una muestra aleatoria de tamaño $n$. Deje de $S_{n:n} = X_{n:n} - X_{n-1:n}$, el de más a la derecha extrema espaciado. El OP pide $E[S_{n:n}]$ cuando el muestreo de una distribución normal.

Los autores demuestran que, para un $N(0,1)$ de distribución, $\sqrt{2 \log n}$ $S_{n:n}$ converge en distribución a $\log Z - \log Y$, donde $f_{Z,Y}(z,y) = e^{-z}$ si $0 \leq y \leq z$ y $0$ lo contrario.

Mus $S_{n:n} = O_p(1/\sqrt{\log n})$ y por lo tanto converge en probabilidad a $0$ como $n \to \infty$. Por lo que $\lim_{n \to \infty} E[S_{n:n}] = 0$ así. Por otra parte, desde $E[\log Z - \log Y] = 1$, $E[S_{n:n}] \sim \frac{1}{\sqrt{2 \log n}}$. (Para otro argumento en favor de esta última afirmación, véase mi anterior respuesta a esta pregunta.)

En otras palabras, (2) es más sorprendente.

Agregado: Este, no obstante, dependen del hecho de que el muestreo de la distribución normal. Los autores clasifican la distribución de extrema espaciamientos como ES corto, si $S_{n:n}$ converge en probabilidad a $0$ como $n \to \infty$; ES medio, si $S_{n:n}$ es acotada pero no cero de la probabilidad; y ES largo, si $S_{n:n}$ se aparta de la probabilidad. Mientras que los $N(0,1)$ tiene una distribución ES corto a la derecha de las colas, los autores muestran que la gamma de la familia tiene ES medio derecho colas (ver Shai Covo la respuesta para el caso especial de la exponencial) y la de Pareto de la familia tiene ES el derecho de las colas.

6voto

Justin Walgran Puntos 552

Una rápida heurística intento en esto: en primer lugar, el estándar de los resultados sobre el fin de las estadísticas nos dicen que si tenemos $$ n muestras de la distribución, con CDF $F$, el $k$th persona menor de $n$ se suele tener una altura de alrededor de $F^{-1}(k/(n+1))$.

Por lo tanto, fijar $\mu = 0$ y $\sigma = 1$. Esperamos que la altura de las más altas de $n-1$ a la gente a ser de alrededor de $\Phi^{-1}(1-1/n)$, y la altura de la segunda más alta de alrededor de $\Phi^{-1}(1-2/n)$, donde $\Phi$ es el estándar normal de la CDF. La pregunta, entonces, es lo que sucede a $\Phi^{-1}(1-1/n)-\Phi^{-1}(1-2/n)$ $$ n se hace grande.

Ahora, es un estándar de la estimación que para grandes $z$, $1-\Phi(z) \approx \phi(z)/z$, donde $\phi(z) = e^{-z^2/2}/\sqrt{2\pi}$ es la normal estándar PDF. Así que vamos a $\epsilon = 1-\Phi(z)$; entonces tenemos $\epsilon \approx \phi(z)/z$. La inversión da la aproximación

$$\Phi^{-1}(1-\epsilon) \aprox W\left( {1 \over 2\epsilon^2 \pi} \right)^{1/2}$$,

donde $W$ es el Lambert $W$ función de la inversa de $x \rightarrow xe^x$. En particular, si $\epsilon = 1/n$, entonces tenemos

$$\Phi^{-1}(1-1/n) \aprox W \left( {n^2 \más de 2 \pi} \right)^{1/2}$$.

Así que, finalmente, la pregunta es, ¿qué pasa con

$$ W\left( {4n^2 \más de 2 \pi} \right)^{1/2} - W\left( {n^2 \más de 2\pi} \right)^{1/2} $$

como $n$ se hace grande? Parece que este va a cero $$ n se hace grande; es decir, pequeñas lagunas se espera que entre el más pequeño y el segundo más pequeño entradas en muestras más grandes de la distribución normal. Por lo que (2) es más sorprendente.

Dicho esto, he echado mucho aquí, pero supongo que esta captura la correcta asymptotics.

6voto

Martin OConnor Puntos 116

Deje que $\mu_{i:n}$ denotan la media de la $i$th de observación más grande a partir de una muestra de tamaño $$ n de una distribución. La pregunta es sobre el comportamiento de los $\mu_{n:n} - \mu_{n-1:n}$ para una distribución normal. David y Nagaraja del Fin de la Estadística dice que

  1. Para una $N(0,1)$ de distribución, $\mu_{n:n}$ tiene el asintóticamente dominante plazo $\sqrt{2\log n}$ (pp 302-303, ver también Shai Covo la respuesta).
  2. Para cualquier distribución, $\mu_{n-1:n} + (n-1)\mu_{n:n} = n \mu_{n-1,n-1}$ (p. 44).

A partir de (2), tenemos $\mu_{n:n} - \mu_{n-1:n} = n (\mu_{n:n} - \mu_{n-1,n-1})$.

La adición de la asintótica a partir de (1), vemos que $\mu_{n:n} - \mu_{n-1:n}$ tiene el asintóticamente dominante plazo $n \left(\sqrt{2\log n} - \sqrt{2\log (n-1)} \right)$, que es dominado por $$\frac{n}{n \sqrt{2 \log n}} = \frac{1}{\sqrt{2 \log n}},$$ que nos dice tanto que $\mu_{n:n} - \mu_{n-1:n} \to 0$ y la velocidad a la que lo hace.

2voto

Mingo Puntos 126

Revisado respuesta.

Una aproximación muy acertada para el caso de la distribución normal se puede encontrar en este documento. Deje de $X_{1:n} \leq X_{2:n} \leq \cdots \leq X_{n:n}$ se la ordenó estadísticas obtenidas a partir de una muestra aleatoria de $X_1,X_2,\ldots,X_n$, donde $X_i \sim {\rm Normal}(\mu\sigma^2)$. Según la Eq. (2), por $i \geq n/2$ y $n \to \infty$, $$ X_{i:n} \approx \mu + \sigma \bigg[\sqrt {2\ln n} - \frac{{\ln (\ln n) + \ln (4\pi ) - 2W_{i:n} }}{{2\sqrt {2\ln n} }}\bigg], $$ donde $W_{i:n}$ tiene la densidad $$ g_{i:n} (w) = \frac{1}{{(n - i)!}}\exp ( - (n - i + 1)w - \exp ( - w)), \;\; - \infty < w < \infty . $$ Así, por ejemplo, $$ g_{n:n} (w) = \exp ( - w - \exp ( - w)), \;\; - \infty < w < \infty $$ y $$ g_{n-1:n} (w) = \exp ( - 2w - \exp ( - w)), \;\; - \infty < w < \infty . $$ De acuerdo a la Nca. (3) y (4) de que el papel, $$ {\rm E}[X_{n:n} ] \approx \mu + \sigma \bigg[\sqrt {2\ln n} - \frac{{\ln (\ln n) + \ln (4\pi ) - 2 \cdot 0.5772}}{{2\sqrt {2\ln n} }}\bigg] $$ y $$ {\rm Var}[X_{n:n} ] \approx \frac{{\sigma ^2 \cdot 1.64493}}{{2\ln n}}. $$

Algunos hechos generales, que son algo útil en nuestro contexto. Si $X_{1:n} \leq X_{2:n} \leq \cdots \leq X_{n:n}$ son los ordenó estadísticas obtenidas a partir de una muestra aleatoria de $X_1,X_2,\ldots,X_n$, donde $X_i$ cdf $F$ y pdf de $f$, entonces $$ {\rm E}[X_{i:n}] = \frac{{n!}}{{(i - 1)!(n - i)!}}\int_{ - \infty }^\infty {x [ F(x)] ^{i - 1} [ 1 - F(x)] ^{n - i} f(x)\,dx}. $$ Por un ejercicio de un libro sobre el fin de las estadísticas, $$ {\rm E}[X_{i + 1:n} - X_{i:n} ] = {n \elegir r}\int_{ - \infty }^\infty {[F(x)]^r [1 - F(x)]^{n - r}\, dx} ,\;\; r = 1, \ldots ,n - 1. $$ Dejando de $r=n-1$ por lo tanto da $$ {\rm E}[X_{n:n} - X_{n-1:n} ] = n \int_{ - \infty }^\infty {[F(x)]^{n-1} [1 - F(x)]\, dx}. $$ La aplicación de esta fórmula para el caso de la exponencial con una media de $\theta$ da una diferencia constante: $$ {\rm E}[X_{n:n} - X_{n-1:n} ] = n\int_0^\infty {(1 - e^{ - x/\theta } )^{n - 1} e^{ - x/\theta } \, dx} = \theta. $$ Sin embargo, el correspondiente pdf, $\theta ^{ - 1} e^{ - x/\theta } \mathbf{1}(x \geq 0)$, va a cero mucho más rápido que, por ejemplo, $1/x^2$ $x \to \infty$. De hecho, $X_{n:n} - X_{n-1:n}$ es exponencialmente distribuida con una media de $\theta$ (véase también leonbloy la respuesta). De hecho, la sustitución de la exponencial cdf $F(x)=(1-e^{-x/\theta})\mathbf{1}(x \geq 0)$ y pdf $f(x)=\theta^{-1} e^{-x/\theta}\mathbf{1}(x \geq 0)$ en la fórmula general $$ f_{X_{n:n} - X_{n-1:n} } (w) = \frac{{n!}}{{(n - 2)!}}\int_{ - \infty }^\infty {[F(x)]^{n - 2} f(x)f(x + w)\,dx},\;\; 0 < w < \infty $$ para la densidad de $X_{n:n}-X_{n-1:n}$ (que es un caso especial de la fórmula para $X_{j:n}-X_{i:n}$, $1 \leq i < j \leq n$), da $$ f_{X_{n:n} - X_{n-1:n} } (w) = \theta^{-1}e^{-w/\theta}, \;\; 0 < w < \infty, $$ es decir, $X_{n:n} - X_{n-1:n}$ es exponencial, con una media de $\theta$.

0voto

palehorse Puntos 8268

Me gustaría tomar este enfoque:

  • Llame a $ p_d= P(x_1 > x_2 + d)$

  • La probabilidad de que la muestra de $x_1$ es el valor más grande Y supera el segundo más grande en más de $d$ es de solo $p_d^{N-1}$

  • La probabilidad de que el mayor valor excede el segundo más grande en más que $d$ es $N p_d^{N-1}$ EQUIVOCADO-fija por debajo del

Para calcular $p_d$: es la probabilidad de que la diferencia de dos iid normal supera los $d$. Pero la diferencia de dos normales es una normal de media cero y varianza de 2 $\sigma^2$, de modo que la probabilidad está dada por la integral de la normal función de distribución acumulativa. Lo que nos importa es que es una constante que no depende de $N$.

Por lo que la probabilidad de que se trate (fijo $d$, $N \to \infty$) tiende a cero.


ACTUALIZACIÓN: Como bien lo señaló en los comentarios, el segundo paso es malo, los eventos no son independientes. Son independientes, aunque, si $x_1$ es fijo, es decir, son condicionalmente independientes. Así:

$P(x_1 > x_2 + d | x_1) = F_x(x_1 - d) $

$P(x_1 > x_i + d | x_1) = F_x^{N-1}(x_1 - d)$

Y $P(x_1 > x_i + d) = \int_{-\infty}^{\infty}F_x^{N-1}(x - d) f_x(x) dx$

(esto tiende a $1/$ N $d \to 0^+$, como era de esperar)

Así, la restricción a $d \ge 0$, la probabilidad de que el mayor valor excede el segundo más grande en más que $d$ es (si no me han jodido otra cosa) :

$ P(x_A - x_B > d)= N \int_{-\infty}^{\infty} F_x^{N-1}(x - d) f_x(x) dx $

donde $x_A$ es el valor más grande y $x_B$ a por la segunda.

La pregunta es acerca de la fórmula anterior se va a cero o no fijos $d$, y el crecimiento de N. Que parece depende de la densidad.

Como comprobación: si $x$ es exponencial con parámetro $\lambda$, la integral se puede evaluar, y me sale:

$ P(x_A - x_B > d) = exp( - \lambda d) $

Este (además de que tiende a 1 por $d \to 0^+$, como debe ser) no dependen de $N$. Por lo tanto, para una distribución exponencial de los dos eventos de la pregunta original son igual de sorprendente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X