Las variables aleatorias Bernoulli pueden aproximar (casi) cualquier distribución con una precisión arbitraria: Una secuencia de valores Bernoulli nos da una secuencia binaria, que puede interpretarse como la representación binaria de un número real. (Esto no es sorprendente, dado que un número real es esencialmente sólo una secuencia infinita de dígitos discretos). Por lo tanto, mediante un mapeo apropiado, podemos transformar una secuencia de Bernoulli en una variable aleatoria uniforme continua. Una vez hecho esto, podemos utilizar la técnica estándar de muestreo por transformación inversa para obtener una variable aleatoria de una distribución arbitraria.
Ahora bien, esto tiene alguna limitación, porque en la práctica nunca tenemos una secuencia infinita de valores Bernoulli, pero podemos generar una gran secuencia finita. Esto nos permite aproximar una variable aleatoria uniforme arbitrariamente bien, y así podemos entonces aproximar cualquier distribución que pueda ser aproximada arbitrariamente bien por un mapeo de una variable aleatoria que sea arbitrariamente cercana a una variable aleatoria uniforme.
Detalles matemáticos para la generación con una secuencia infinita: Supongamos que se quiere generar una variable aleatoria escalar con función de distribución $F$ . Para ello, consideramos una secuencia binaria intercambiable $X_1, X_2, X_3, ... \sim \text{IID Bern}(\tfrac{1}{2})$ y definir las variables aleatorias correspondientes:
$$A = A(\boldsymbol{X}) = \inf \Big\{ r \in \mathbb{R} \Big| F(r) \geqslant U \Big\} \quad \quad \quad U = U(\boldsymbol{X}) = \sum_{i=1}^\infty \frac{X_i}{2^i} \sim \text{U}(0,1).$$
(Esta función está bien definida, por la completitud de los números reales.) Ahora, como $F$ es una función no decreciente, tenemos:
$$\mathbb{P}(A \leqslant a) = \mathbb{P} \Big( \inf \Big\{ r \in \mathbb{R} \Big| F(r) \geqslant U \Big\} \leqslant a \Big) = \mathbb{P} \Big( U \leqslant F(a) \Big) = F(a).$$
(Nótese que este resultado no requiere la continuidad de $F$ por lo que funciona para distribuciones generales, no sólo para distribuciones continuas).
Detalles matemáticos para la generación con una secuencia finita: El caso anterior es un caso idealizado en el que podemos generar una secuencia infinita de variables aleatorias Bernoulli. Ahora consideramos el caso más realista en el que podemos generar alguna secuencia finita arbitrariamente grande con $k \in \mathbb{N}$ términos. Por lo tanto, ahora tenemos la secuencia finita $X_1, X_2, ..., X_k \sim \text{IID Bern}(\tfrac{1}{2})$ y definimos las variables aleatorias correspondientes:
$$A_k = \inf \Big\{ r \in \mathbb{R} \Big| F(r) \geqslant U_k \Big\} \quad \quad \quad U_k = \sum_{i=1}^k \frac{X_i}{2^i} + \frac{1}{2^{k+1}}.$$
(Hemos incluido un término adicional de "corrección de continuidad" en $U_k$ para que su distribución siga siendo simétrica en torno al valor $\mathbb{E}(U_k) = \tfrac{1}{2}$ .) Ahora tenemos:
$$\mathbb{P}(A_k \leqslant a) = \mathbb{P} \Big( \inf \Big\{ r \in \mathbb{R} \Big| F(r) \geqslant U_k \Big\} \leqslant a \Big) = \mathbb{P} \Big( U_k \leqslant F(a) \Big).$$
Para los grandes $k$ tenemos entonces..:
$$\mathbb{P}(A_k \leqslant a) = \mathbb{P} \Big( U_k \leqslant F(a) \Big) \approx \mathbb{P} \Big( U \leqslant F(a) \Big) = F(a).$$
Como puedes ver, esta aproximación se basa en nuestra capacidad de aproximar el evento $U \leqslant F(a)$ por el evento $U_k \leqslant F(a)$ para grandes $k$ . Para todas las distribuciones, excepto las patológicas, esta aproximación puede hacerse de forma arbitraria tomando $k$ sea lo suficientemente grande. Hay algunas distribuciones patológicas en las que esto no es así (por ejemplo, cualquier distribución con probabilidad distinta de cero en los números irracionales, o más ampliamente, en los valores reales que no pueden representarse como un número binario finito), pero se trata de una clase bastante reducida de distribuciones. Por lo tanto, esta técnica aproximará una variable aleatoria con (casi) cualquier distribución con un grado de precisión arbitrario.