Estimación Monte Carlo de una variable aleatoria $X$ con una muestra de tamaño $N$ tiene una varianza de $\tfrac{\text{Var}[X]}{N}$ por lo que un "error típico" de esta estimación tiene un orden de $\tfrac{\text{std}(X)}{\sqrt{N}}$ . Si quiere estimar $\mathbb{E} X$ con un alto grado de certeza, debe hacer que esta varianza sea lo más pequeña posible, lo que significa $N$ tiene que escalar con la varianza $\text{Var}[X]$ . También hay que tener en cuenta que lo que importa es la varianza del resultado, no las varianzas individuales de las variables aleatorias implicadas (aunque sí influyen en el resultado, pero cómo lo hacen depende de ti).
Entonces, ¿qué sucede si consideramos algunas $f(X, Y)$ que tiene la misma expectativa $\mathbb{E} X = \mathbb{E} f(X, Y)$ pero emplea variables auxiliares $Y$ ? ¿Qué pasaría con la varianza $\text{Var}[f(X,Y)]$ ?
En primer lugar, un resultado importante aquí es la Teorema de Rao-Blackwell que establece esencialmente que $$\text{Var}[\mathbb{E}_{Y|X} f(X, Y)] \le \text{Var}[f(X, Y)]$$ Es decir, si se puede promediar la variable auxiliar $Y$ (condicionado a $X$ ), sólo podría mejorar (es decir, disminuir) la varianza.
Sin embargo, el teorema RB sólo se aplica a los casos en los que $X = \mathbb{E}_{Y|X} f(X,Y)$ por ejemplo, $f(X,Y) = X + Y$ para $Y|X \sim \mathcal{N}(0, 1)$ . Entonces, efectivamente, la expectativa es la misma, pero añadir más ruido no disminuye la varianza. Pero el propio Monte-Carlo es una demostración de que empleando más variables aleatorias se reduce la varianza: $f(X, Y) = \frac{X+Y}{2}$ para $X$ y $Y$ siendo independientes e idénticamente distribuidos. ¿Cómo escapamos al teorema RB? Es porque $X$ no es igual a $\mathbb{E}_{Y|X} f(X, Y)$ , que en realidad es $\frac{X}{2} + \frac{\mathbb{E} X}{2}$ . Esta última sería una mejor estimación de la media, pero no podemos calcular $\mathbb{E}_{Y|X} f(X, Y)$ en este ejemplo.
Por lo tanto, podemos ver que la construcción de una estimadores con más variables aleatorias y menor variación es posible El teorema RB sólo señala algunos casos en los que tales intentos fracasarían.
Bien, ¿cómo se construyen realmente esos estimadores? Además del propio método de Montecarlo (que utiliza más cálculos para reducir la varianza), una forma que se me ocurre es el variantes antitéticas que utiliza la correlación negativa para que la aleatoriedad en $X$ y $Y$ se "anulan" entre sí (esencialmente, el método explota la estructura del problema, pero no siempre es posible/fácil encontrarla y utilizarla).
En general, la idea de Reducción de la desviación en las simulaciones Monte Carlo es muy importante, y hay otros métodos más allá de aumentar el tamaño de la muestra o introducir una variable aleatoria adicional.