Muestreo:

Question

Muestreo:

Preguntado el 10 de Julio, 2016: Cuando se hizo la pregunta
162 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

He leído en la Wikipedia en la que Thompson muestreo consiste en jugar a la acción ${\displaystyle a \in {\mathcal {A}}}$ de acuerdo a la probabilidad de que esta acción maximiza la recompensa esperada.

Esta probabilidad parece ser:

$\int {\mathbb {I}}[{\mathbb {E}}(r \;\vert \;a,\theta )=\max _{{a'}}{\mathbb {E}}(r \; | \; a',\theta )]\; P(\theta |{\mathcal {D}})\,d\theta$

¿Cómo se hace derivar este Ecualizador? Que es, por qué es el valor de la Eq. por encima de la probabilidad de la acción de la maximización de la recompensa esperada)?

Este Eq. también se puede encontrar en los trabajos de Thompson de muestreo, por ejemplo, primero Eq. aquí.

Preguntado el 10 de Julio, 2016 por SitaRam

Answer 1

1 Respuestas

Answer 2

4voto

dlehman Puntos 36

Esta fórmula sufre forma pesada notación que quizás se hace un poco difícil de digerir.

Deje $A$ ser el evento aleatorio que la acción $a^*\in\mathcal{A}$ maximiza la recompensa esperada $$\bar{r}(a,\theta)=\mathbb{E}(r|a,\theta).$$

Deje $r^*(\theta)$ ser la máxima recompensa esperada para un determinado $\theta$, $$ \bar{r}^*(\theta)=\max_{a'}\bar{r} (',\theta). $$ El evento $A$ estamos interesados en se puede escribir como sigue: $$ A=\{\theta: \bar{r}. (a^*,\theta)=\bar{r}^*(\theta)\}. $$ La probabilidad de este evento es:

$$ \mathbb{P}(A)=\int_A P(\theta|\mathcal{D})d\theta=\int I_A(\theta)P(\theta|\mathcal{D})d\theta. $$

Esta es exactamente la Wikipedia fórmula (en nueva notación).

Respondido el 10 de Julio, 2016 por dlehman (36 Puntos )

Muestreo:

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Muestreo:

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: