4 votos

Ley de los grandes números con observación incompleta

Actualmente estoy leyendo el libro Introducción al Aprendizaje por Refuerzo de R. S. Sutton and A. G. Barto. Los autores a menudo razonan con el LLN. En particular, en un punto hay una expresión como esta (comienzo de la Sección 2.2 - Métodos de Valor de Acción) $$ \frac{\sum_{i = 1}^{t-1}R_i \mathbb{1}_{\{A_i = a\}}}{\sum_{i=1}^{t-1} \mathbb{1}_{\{A_i = a\}}}, $$ donde $R_i$ son las recompensas y $A_i$ son las acciones tomadas en el tiempo $i$. Si entiendo correctamente, afirman que por el LLN, esta expresión converge a la media de $R_i$ siempre que la Acción $a$ se elija infinitamente a menudo. Intuitivamente esto, por supuesto, tiene sentido, pero no estoy convencido. Estoy familiarizado con el LLN de esta manera: Toma $X_1,X_2,\dots$ iid, donde $\mathbb{E}[|X_1|]$ existe. Entonces $$ \lim_{n \to \infty} \frac1n \sum_{i=1}^{n} X_i = \mathbb{E}[X_1] \hspace{20pt} $$ casi seguramente. Intenté recrear la situación del libro de esta manera: Tenemos dos secuencias $X_1,X_2,\dots$ iid y $C_1,C_2,\dots$ iid (si es necesario, que las dos secuencias sean independientes), donde $\mathbb{E}[|X_1|]$ y $\mathbb{E}[|C_1|]$ existen. Sea $\mathbb{P}[C_i = \pm 1] = 1/2$. Entonces, intuitivamente la expresión $$ \frac{\sum_{i = 1}^{n}X_i \mathbb{1}_{\{C_i = 1\}}}{\sum_{i=1}^{n} \mathbb{1}_{\{C_i = 1\}}} $$ debería converger casi seguramente a $\mathbb{E}[X_1]$, ya que la probabilidad de $\{C_i = 1\}$ solo unas pocas veces es cero (es decir, observas $X_i$ infinitamente a menudo casi seguramente).

Si esto es correcto, ¿cómo puedes argumentarlo rigurosamente?

3voto

Q9y5 Puntos 41

Para el caso general, puedes probar el lema de Toeplitz:

Lema de Toeplitz. Supongamos que $x_{n}\to x$ y que $a_{i}\geq0$ con $\sum_{i=1}^{n}a_{i}\to\infty$ cuando $n\to\infty$, entonces $$\frac{\sum_{i=1}^{n}a_{i}x_{i}}{\sum_{i=1}^{n}a_{i}}\to x.$$

Bajo tu situación recreada, digamos que $X_{i}$ y $C_{i}$ son independientes, la prueba se vuelve mucho más fácil. Por la Ley de los Grandes Números, con probabilidad 1, tienes $$\frac{1}{n}\sum_{i=1}^{n}X_{i}1_{\{C_{i}=c\}}\to\mathbb{E}[X_{i}1_{\{C_{i}=c\}}]=\mathbb{E}[X_{i}]\mathbb{E}[1_{\{C_{i}=c\}}],$$ mientras tanto, con probabilidad 1, $$\frac{1}{n}\sum_{i=1}^{n}1_{\{C_{i}=c\}}\to\mathbb{E}[1_{\{C_{i}=c\}}].$$ Dado que $\mathbb{E}[1_{\{C_{i}=c\}}]=\mathbb{P}(C_{i}=c)$ debe ser distinto de cero según el lema de Borel–Cantelli, una simple división produce el resultado deseado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X