He leído en la Wikipedia en la que Thompson muestreo consiste en jugar a la acción ${\displaystyle a \in {\mathcal {A}}}$ de acuerdo a la probabilidad de que esta acción maximiza la recompensa esperada.
Esta probabilidad parece ser:
$\int {\mathbb {I}}[{\mathbb {E}}(r \;\vert \;a,\theta )=\max _{{a'}}{\mathbb {E}}(r \; | \; a',\theta )]\; P(\theta |{\mathcal {D}})\,d\theta$
¿Cómo se hace derivar este Ecualizador? Que es, por qué es el valor de la Eq. por encima de la probabilidad de la acción de la maximización de la recompensa esperada)?
Este Eq. también se puede encontrar en los trabajos de Thompson de muestreo, por ejemplo, primero Eq. aquí.