Un método ingenuo para aproximar una distribución normal consiste en sumar quizás $100$ Variables aleatorias IID distribuidas uniformemente en $[0,1]$ y, a continuación, recentrar y reescalar, basándose en el Teorema Central del Límite. ( Nota al margen : Existen métodos más precisos como el Transformada de Box-Muller .) La suma de IID $U(0,1)$ variables aleatorias se conoce como distribución de suma uniforme o Distribución Irwin-Hall .
¿Cuál es la magnitud del error al aproximar una distribución de suma uniforme por una distribución normal?
Siempre que surge este tipo de pregunta para aproximar la suma de variables aleatorias IID, la gente (yo incluido) saca a colación la Teorema de Berry-Esseen que es una versión efectiva del Teorema Central del Límite, dado que existe el tercer momento:
$$|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} $$
donde $F_n$ es la función de distribución acumulativa para la suma reescalada de $n$ Variables aleatorias IID, $\rho$ es el tercer momento central absoluto $E|(X-EX)^3|$ , $\sigma$ es la desviación típica, y $C$ es una constante absoluta que puede tomarse como $1$ o incluso $1/2$ .
Esto es insatisfactorio. Me parece que la estimación de Berry-Esseen es la más cercana a la aguda en distribuciones binomiales que son discretas, con el mayor error en $0$ para una distribución binomial simétrica. El mayor error se produce en el salto más grande. Sin embargo, la distribución de suma uniforme no tiene saltos.
Las pruebas numéricas sugieren que el error se reduce más rápidamente que $c/\sqrt n$ .
Utilizando $C=1/2$ la estimación de Berry-Esseen es $$|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n}$$
que para $n=10,20,40$ se trata de $0.205$ , $0.145$ y $0.103$ respectivamente. Las diferencias máximas reales para $n=10, 20, 40$ parecen ser $0.00281$ , $0.00139$ y $0.000692$ , respectivamente, que son mucho más pequeños y parecen caer como $c/n$ en lugar de $c/\sqrt n$ .