Dado que las variables aleatorias no están correlacionadas y tienen media $0$ sostiene que
$$\mathbb{E}(X_i X_j) = 0$$
para todos $i \neq j$ . Esto implica
$$\mathbb{E}((S_n-S_m)^2) = \sum_{i=m+1}^n \sum_{j=m+1}^n \mathbb{E}(X_i X_j) = \sum_{i=m+1}^n \mathbb{E}(X_i^2)$$
para todos $n \geq m$ y por lo tanto $(S_n)_{n \in \mathbb{N}}$ es un $L^2$ -Cauchy-secuencia, por lo tanto convergente, es decir $S_n \to X$ en $L^2$ para alguna variable aleatoria $X \in L^2$ . Usando eso
$$\mathbb{E}((S_n-X)^2) = \sum_{i=n+1}^{\infty} \mathbb{E}(X_i^2)$$
encontramos por la desigualdad de Markov para cualquier $\epsilon>0$
$$\begin{align*} \sum_{n \geq 1} \mathbb{P}(|S_n-X| \geq \epsilon) &\leq \frac{1}{\epsilon^2} \sum_{n \geq 1} \mathbb{E}((S_n-X)^2) \\ &= \frac{1}{\epsilon^2} \sum_{n \geq 1} \sum_{i=n+1}^{\infty} \mathbb{E}(X_i^2) \\ &= \frac{1}{\epsilon^2} \sum_{i \geq 1} i \mathbb{E}(X_i^2) < \infty. \end{align*}$$
Aplicando el lema de Borel-Cantelli concluimos que $S_n \to X$ casi seguro.
Observación: Dejemos que $(Y_n)_{n \in \mathbb{N}}$ sea una secuencia de variables aleatorias tal que $Y_n \to Y$ en probabilidad (que se satisface, en particular, en $Y_n \to Y$ en $L^2$ ). Es bien sabido que esto, en general, no implica $Y_n \to Y$ casi seguro. Sin embargo, si las probabilidades $\mathbb{P}(|Y_n-Y|>\epsilon)$ están decayendo lo suficientemente rápido como $n \to \infty$ en el sentido de que
$$\sum_{n \geq 1} \mathbb{P}(|Y_n-Y| >\epsilon ) <\infty$$
para todos $\epsilon>0$ entonces $Y_n \to Y$ casi seguro. Eso es exactamente lo que hemos utilizado en la prueba anterior.