Actualmente estoy leyendo el libro Introducción al Aprendizaje por Refuerzo de R. S. Sutton and A. G. Barto. Los autores a menudo razonan con el LLN. En particular, en un punto hay una expresión como esta (comienzo de la Sección 2.2 - Métodos de Valor de Acción) $$ \frac{\sum_{i = 1}^{t-1}R_i \mathbb{1}_{\{A_i = a\}}}{\sum_{i=1}^{t-1} \mathbb{1}_{\{A_i = a\}}}, $$ donde $R_i$ son las recompensas y $A_i$ son las acciones tomadas en el tiempo $i$. Si entiendo correctamente, afirman que por el LLN, esta expresión converge a la media de $R_i$ siempre que la Acción $a$ se elija infinitamente a menudo. Intuitivamente esto, por supuesto, tiene sentido, pero no estoy convencido. Estoy familiarizado con el LLN de esta manera: Toma $X_1,X_2,\dots$ iid, donde $\mathbb{E}[|X_1|]$ existe. Entonces $$ \lim_{n \to \infty} \frac1n \sum_{i=1}^{n} X_i = \mathbb{E}[X_1] \hspace{20pt} $$ casi seguramente. Intenté recrear la situación del libro de esta manera: Tenemos dos secuencias $X_1,X_2,\dots$ iid y $C_1,C_2,\dots$ iid (si es necesario, que las dos secuencias sean independientes), donde $\mathbb{E}[|X_1|]$ y $\mathbb{E}[|C_1|]$ existen. Sea $\mathbb{P}[C_i = \pm 1] = 1/2$. Entonces, intuitivamente la expresión $$ \frac{\sum_{i = 1}^{n}X_i \mathbb{1}_{\{C_i = 1\}}}{\sum_{i=1}^{n} \mathbb{1}_{\{C_i = 1\}}} $$ debería converger casi seguramente a $\mathbb{E}[X_1]$, ya que la probabilidad de $\{C_i = 1\}$ solo unas pocas veces es cero (es decir, observas $X_i$ infinitamente a menudo casi seguramente).
Si esto es correcto, ¿cómo puedes argumentarlo rigurosamente?