21 votos

Error en la aproximación normal a una distribución de suma uniforme

Un método ingenuo para aproximar una distribución normal consiste en sumar quizás $100$ Variables aleatorias IID distribuidas uniformemente en $[0,1]$ y, a continuación, recentrar y reescalar, basándose en el Teorema Central del Límite. ( Nota al margen : Existen métodos más precisos como el Transformada de Box-Muller .) La suma de IID $U(0,1)$ variables aleatorias se conoce como distribución de suma uniforme o Distribución Irwin-Hall .

¿Cuál es la magnitud del error al aproximar una distribución de suma uniforme por una distribución normal?

Siempre que surge este tipo de pregunta para aproximar la suma de variables aleatorias IID, la gente (yo incluido) saca a colación la Teorema de Berry-Esseen que es una versión efectiva del Teorema Central del Límite, dado que existe el tercer momento:

$$|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} $$

donde $F_n$ es la función de distribución acumulativa para la suma reescalada de $n$ Variables aleatorias IID, $\rho$ es el tercer momento central absoluto $E|(X-EX)^3|$ , $\sigma$ es la desviación típica, y $C$ es una constante absoluta que puede tomarse como $1$ o incluso $1/2$ .

Esto es insatisfactorio. Me parece que la estimación de Berry-Esseen es la más cercana a la aguda en distribuciones binomiales que son discretas, con el mayor error en $0$ para una distribución binomial simétrica. El mayor error se produce en el salto más grande. Sin embargo, la distribución de suma uniforme no tiene saltos.

Las pruebas numéricas sugieren que el error se reduce más rápidamente que $c/\sqrt n$ .

Utilizando $C=1/2$ la estimación de Berry-Esseen es $$|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n}$$

que para $n=10,20,40$ se trata de $0.205$ , $0.145$ y $0.103$ respectivamente. Las diferencias máximas reales para $n=10, 20, 40$ parecen ser $0.00281$ , $0.00139$ y $0.000692$ , respectivamente, que son mucho más pequeños y parecen caer como $c/n$ en lugar de $c/\sqrt n$ .

18voto

giulio Puntos 166

Sea $U_1, U_2,\dots$ ser iid $\mathcal U(-b,b)$ variables aleatorias y considerar la suma normalizada $$ S_n = \frac{\sqrt{3} \sum_{i=1}^n U_i}{b \sqrt{n}} \>, $$ y el $\sup$ norma $$ \delta_n = \sup_{x\in\mathbb R} |F_n(x) - \Phi(x)| \>, $$ donde $F_n$ es la distribución de $S_n$ .

Lema 1 ( Uspensky ): El siguiente límite para $\delta_n$ retenciones. $$ \delta_n < \frac{1}{7.5 \pi n} + \frac{1}{\pi}\left(\frac{2}{\pi}\right)^n + \frac{12}{\pi^3 n} \exp(-\pi^2 n / 24) \>. $$

Prueba . Véase J. V. Uspensky (1937), Introducción a la probabilidad matemática Nueva York: McGraw-Hill, p. 305.

Más tarde, R. Sherman lo mejoró a lo siguiente.

Lema 2 ( Sherman ): Se cumple la siguiente mejora del límite de Uspensky. $$\delta_n < \frac{1}{7.5 \pi n} - \left(\frac{\pi}{180}+\frac{1}{7.5\pi n}\right) e^{-\pi^2 n / 24} + \frac{1}{(n+1)\pi}\left(\frac{2}{\pi}\right)^n + \frac{12}{\pi^3 n} e^{-\pi^2 n / 24} \>.$$

Prueba : Ver R. Sherman, Error de la aproximación normal a la suma de N variables aleatorias , Biometrika vol. 58, nº 2, 396-398.

La prueba es una aplicación bastante sencilla de la desigualdad del triángulo y de los límites clásicos de la cola de la distribución normal y en $(\sin x) / x$ aplicado a las funciones características de cada una de las dos distribuciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X