Estoy trabajando en un multi-armed bandit problema donde no tenemos ninguna información acerca de la recompensa de distribución.
He encontrado muchos artículos que garantizan el lamento de los límites para una distribución conocida, y para general las distribuciones con soporte en [0,1].
Me gustaría saber si hay una manera de llevar a cabo bien en un entorno donde la recompensa de distribución no tiene ninguna garantía acerca de su apoyo. Estoy tratando de calcular un test no paramétrico de límite de tolerancia y el uso que el número de la escala de la recompensa de la distribución, de manera que se puede utilizar el algoritmo 2 se especifica en este documento (http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf). No creo que nadie este enfoque de trabajo?
Si no, puede que nadie me señale el lugar adecuado?
Muchísimas gracias!