7 votos

Muestreo:

He leído en la Wikipedia en la que Thompson muestreo consiste en jugar a la acción ${\displaystyle a \in {\mathcal {A}}}$ de acuerdo a la probabilidad de que esta acción maximiza la recompensa esperada.

Esta probabilidad parece ser:

$\int {\mathbb {I}}[{\mathbb {E}}(r \;\vert \;a,\theta )=\max _{{a'}}{\mathbb {E}}(r \; | \; a',\theta )]\; P(\theta |{\mathcal {D}})\,d\theta$

¿Cómo se hace derivar este Ecualizador? Que es, por qué es el valor de la Eq. por encima de la probabilidad de la acción de la maximización de la recompensa esperada)?

Este Eq. también se puede encontrar en los trabajos de Thompson de muestreo, por ejemplo, primero Eq. aquí.

4voto

dlehman Puntos 36

Esta fórmula sufre forma pesada notación que quizás se hace un poco difícil de digerir.

Deje $A$ ser el evento aleatorio que la acción $a^*\in\mathcal{A}$ maximiza la recompensa esperada $$\bar{r}(a,\theta)=\mathbb{E}(r|a,\theta).$$

Deje $r^*(\theta)$ ser la máxima recompensa esperada para un determinado $\theta$, $$ \bar{r}^*(\theta)=\max_{a'}\bar{r} (',\theta). $$ El evento $A$ estamos interesados en se puede escribir como sigue: $$ A=\{\theta: \bar{r}. (a^*,\theta)=\bar{r}^*(\theta)\}. $$ La probabilidad de este evento es:

$$ \mathbb{P}(A)=\int_A P(\theta|\mathcal{D})d\theta=\int I_A(\theta)P(\theta|\mathcal{D})d\theta. $$

Esta es exactamente la Wikipedia fórmula (en nueva notación).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X