Me pregunto si existe un algoritmo que minimice la pérdida posterior esperada para el bandido de mejor rendimiento, donde el arrepentimiento se calcula como el número de ensayos para alcanzar un umbral de pérdida posterior.
Ejemplo: Supongamos que realizamos una prueba AB para comparar las tasas de clics de 3 creatividades diferentes. Para cada usuario, podemos decidir qué creatividad recibirá. Como estamos fingiendo que esto es un escenario del mundo real, no ganamos nada con el clic, pero tenemos que pagar por cada impresión lo mismo. ¿Existe una manera (un algoritmo) de encontrar la creatividad que mejor funcione en el menor número de impresiones (pruebas)?