¿El mejor algoritmo de bandido?

Question

¿El mejor algoritmo de bandido?

Preguntado el 17 de Febrero, 2012: Cuando se hizo la pregunta
8322 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

El algoritmo bandido más conocido es el de límite superior de confianza (UCB), que popularizó esta clase de algoritmos. Desde entonces, supongo que ahora hay algoritmos mejores. ¿Cuál es el mejor algoritmo actual (en términos de rendimiento empírico o de límites teóricos)? ¿Es este algoritmo óptimo en algún sentido?

Preguntado el 17 de Febrero, 2012 por Usuario no registrado

Answer 1

3 Respuestas

Answer 2

27voto

mr_ Puntos 26

Un artículo de NIPS 2011 ("An empirical evaluation of Thompson Sampling") muestra, en los experimentos, que Thompson Sampling supera a UCB. El UCB se basa en elegir la palanca que promete la mayor recompensa bajo supuestos optimistas (es decir, la varianza de tu estimación de la recompensa esperada es alta, por lo que tiras de palancas que no conoces tan bien). En cambio, el muestreo de Thompson es totalmente bayesiano: genera una configuración de bandido (es decir, un vector de recompensas esperadas) a partir de una distribución posterior, y luego actúa como si ésta fuera la verdadera configuración (es decir, tira de la palanca con la mayor recompensa esperada).

La regla de control bayesiano (" Un principio de entropía relativa mínima para aprender y actuar ", JAIR), una generalización del Muestreo de Thompson, deriva el Muestreo de Thompson de los principios de la teoría de la información y la causalidad. En particular, se demuestra que la Regla de Control Bayesiana es la estrategia óptima cuando se quiere minimizar el KL entre su estrategia y la estrategia óptima (desconocida) y si se tienen en cuenta las restricciones causales. La razón por la que esto es importante es porque puede verse como una extensión de la inferencia bayesiana a las acciones: Se puede demostrar que la inferencia bayesiana es la estrategia de predicción óptima cuando su criterio de rendimiento es el KL entre su estimador y la distribución verdadera (desconocida).

Respondido el 2 de Marzo, 2012 por mr_ (26 Puntos )

Answer 3

17voto

Usuario no registrado Puntos 0

El UCB es, de hecho, casi óptimo en el caso estocástico (hasta un factor log T para un juego de T rondas), y hasta una brecha en la desigualdad de Pinsker en un sentido más dependiente del problema. Un artículo reciente de Audibert y Bubeck elimina esta dependencia logarítmica en el peor de los casos, pero tiene un límite peor en el caso favorable cuando los diferentes brazos tienen recompensas bien separadas.

En general, el UCB es un candidato de una familia más amplia de algoritmos. En cualquier momento del juego, se pueden considerar todos los brazos que no están "descalificados", es decir, cuyo límite superior de confianza no es menor que el límite inferior de confianza de algún brazo. Escoger en base a cualquier distribución de tales brazos calificados constituye una estrategia válida y obtiene un arrepentimiento similar hasta las constantes.

Empíricamente, no creo que haya habido una evaluación significativa de muchas estrategias diferentes, pero creo que la UCB suele ser bastante buena.

La mayor parte de la investigación más reciente se ha centrado en ampliar los problemas de bandidos más allá del simple escenario de K brazos con recompensas estocásticas, a espacios de acción muy grandes (o infinitos), con o sin información lateral, y bajo retroalimentación estocástica o adversaria. También se ha trabajado en escenarios en los que los criterios de rendimiento son diferentes (como la identificación del mejor brazo únicamente).

Respondido el 17 de Febrero, 2012 por Usuario no registrado (0 Puntos )

Answer 4

5voto

Yuval Filmus Puntos 123

El estado actual de la técnica podría resumirse así:

estocástico: UCB y variantes (arrepentimiento en $R_T = O(\frac{K \log T}{\Delta})$ )
adversario: EXP3 y variantes (arrepentimiento en $\tilde{R}_T = O(\sqrt{T K \log K})$ )
contextual: es complicado

con $T$ es el número de rondas, $K$ el número de brazos, $\Delta$ la verdadera diferencia entre el mejor y el segundo mejor brazo (brecha).

Respondido el 16 de Noviembre, 2016 por Yuval Filmus (123 Puntos )

¿El mejor algoritmo de bandido?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿El mejor algoritmo de bandido?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: