La pregunta plantea dos cosas: (1) cómo demostrar que el máximo $X_{(n)}$ converge, en el sentido de que $(X_{(n)}-b_n)/a_n$ converge (en la distribución) para secuencias convenientemente elegidas $(a_n)$ y $(b_n)$ a la distribución estándar de Gumbel y (2) cómo encontrar dichas secuencias.
La primera es bien conocida y está documentada en los documentos originales sobre el teorema de Fisher-Tippett-Gnedenko (FTG). La segunda parece ser más difícil; esa es la cuestión que se aborda aquí.
Por favor, para aclarar algunas afirmaciones que aparecen en otras partes de este hilo, que
-
El máximo hace no convergen a nada: divergen (aunque muy lentamente).
-
Parece que hay diferentes convenciones sobre la distribución de Gumbel. Adoptaré la convención de que la FCD de un invertido La distribución de Gumbel viene dada, hasta la escala y la ubicación, por $1-\exp(-\exp(x))$ . Un máximo convenientemente estandarizado de variantes normales iid converge a una distribución de Gumbel invertida.
Intuición
Cuando el $X_i$ son iid con función de distribución común $F$ la distribución del máximo $X_{(n)}$ es
$$F_n(x) = \Pr(X_{(n)}\le x) = \Pr(X_1 \le x)\Pr(X_2 \le x) \cdots \Pr(X_n \le x) = F^n(x).$$
Cuando el apoyo de $F$ no tiene límite superior, ya que con una distribución Normal, la secuencia de funciones $F^n$ marcha siempre hacia la derecha sin límite:
Gráficos parciales de $F_n$ para $n=1,2,2^2, 2^4, 2^8, 2^{16}$ se muestran.
Para estudiar la formas de estas distribuciones, podemos desplazar cada una de ellas hacia la izquierda en alguna cantidad $b_n$ y lo reescalamos por $a_n$ para que sean comparables.
Cada uno de los gráficos anteriores se ha desplazado para situar su mediana en $0$ y hacer su rango intercuartil de longitud unitaria.
FTG afirma que las secuencias $(a_n)$ y $(b_n)$ puede elegirse de forma que estas funciones de distribución converjan puntualmente en cada $x$ a algunos distribución de valores extremos , hasta la escala y la ubicación. Cuando $F$ es una distribución Normal, la distribución particular de valores extremos limitantes es una Gumbel invertida, hasta la localización y la escala.
Solución
Es tentador emular el Teorema Central del Límite normalizando $F_n$ para tener media y varianza unitarias. Sin embargo, esto es inapropiado, en parte porque la FTG se aplica incluso a las distribuciones (continuas) que no tienen primer o segundo momento. En su lugar, utilizar un percentil (como la mediana) para determinar la ubicación y una diferencia de percentiles (como el IQR) para determinar la dispersión. (Este enfoque general debería conseguir encontrar $a_n$ y $b_n$ para tout distribución continua).
Para la distribución normal estándar, esto resulta fácil. Sea $0 \lt q \lt 1$ . Un cuantil de $F_n$ correspondiente a $q$ es cualquier valor $x_q$ para lo cual $F_n(x_q) = q$ . Recordando la definición de $F_n(x) = F^n(x)$ la solución es
$$x_{q;n} = F^{-1}(q^{1/n}).$$
Por lo tanto, podemos establecer
$$b_n = x_{1/2;n},\ a_n = x_{3/4;n} - x_{1/4;n};\ G_n(x) = F_n(a_n x + b_n).$$
Porque, por construcción, la mediana de $G_n$ es $0$ y su IQR es $1$ la mediana del valor límite de $G_n$ (que es una versión de Gumbel invertido) debe ser $0$ y su IQR debe ser $1$ . Sea el parámetro de escala $\beta$ y el parámetro de ubicación sea $\alpha$ . Dado que la mediana es $\alpha + \beta \log\log(2)$ y el IQR se encuentra fácilmente para ser $\beta(\log\log(4) - \log\log(4/3))$ los parámetros deben ser
$$\alpha = \frac{\log\log 2}{\log\log(4/3) - \log\log(4)};\ \beta = \frac{1}{\log\log(4) - \log\log(4/3)}.$$
No es necesario que $a_n$ y $b_n$ para ser exactamente estos valores: sólo tienen que aproximarse a ellos, siempre que el límite de $G_n$ sigue siendo esta distribución de Gumbel invertida. Un análisis sencillo (pero tedioso) para una normal estándar $F$ indica que las aproximaciones
$$a_n^\prime = \frac{\log \left(\left(4 \log^2(2)\right)/\left(\log^2\left(\frac{4}{3}\right)\right)\right)}{2\sqrt{2\log (n)}},\ b_n^\prime = \sqrt{2\log (n)}-\frac{\log (\log (n))+\log \left(4 \pi \log ^2(2)\right)}{2 \sqrt{2\log (n)}}$$
funcionará bien (y es lo más sencillo posible).
Las curvas azul claro son gráficos parciales de $G_n$ para $n=2, 2^6, 2^{11}, 2^{16}$ utilizando las secuencias aproximadas $a_n^\prime$ y $b_n^\prime$ . La línea roja oscura representa la distribución de Gumbel invertida con parámetros $\alpha$ y $\beta$ . La convergencia es clara (aunque la tasa de convergencia para los negativos $x$ es notablemente más lento).
Referencias
B. V. Gnedenko, Sobre la distribución límite del término máximo en una serie aleatoria . En Kotz y Johnson, Avances en Estadística Volumen I: Fundamentos y teoría básica, Springer, 1992. Traducido por Norman Johnson.