Dado un conjunto de tamaño n de valores distribuidos normalmente, ¿cómo puedo predecir el valor máximo del conjunto (suponiendo que el conjunto contiene aproximadamente un 50% de valores positivos y un 50% de valores negativos)? ¿Y cómo puedo calcular el intervalo de confianza del 95% para saber dónde caería ese máximo?
Respuesta
¿Demasiados anuncios?La función de distribución acumulativa del máximo es $F(x)^n$ , donde $F(x)$ es la función de distribución acumulativa de las distribuciones individuales. Así, su densidad es $nF(x)^{n-1}f(x)$ . Para grandes $n$ se concentra fuertemente cerca de $F(x)=1-\epsilon$ y bien aproximado por $n\exp\left(-n(1-F(x))\right)f(x)$ . Para una distribución normal estándar, tenemos
$$ F(x)=\frac12\left(1+\operatorname{erf}\left(\frac x{\sqrt2}\right)\right)\approx1-\frac{\mathrm e^{-\frac12x^2}}{\sqrt{2\pi}x} $$
y
$$f(x)=\frac{\mathrm e^{-\frac12x^2}}{\sqrt{2\pi}}$$
y por lo tanto
$$ nF(x)^{n-1}f(x)\approx\frac n{\sqrt{2\pi}}\exp\left(-n\frac{\mathrm e^{-\frac12x^2}}{\sqrt{2\pi}x}-\frac12x^2\right)\;. $$
Poniendo la derivada del exponente en $0$ da lugar a una ecuación trascendental para $x$ y el término principal de la solución está determinado por $n\mathrm e^{-\frac12x^2}\sim1$ y por lo tanto $x\sim\sqrt{2\ln n}$ . Así, para una distribución normal general, para grandes $n$ la distribución del máximo tiene un pico alrededor de $\mu+\sqrt{2\ln n}\,\sigma$ .