He encontrado la fórmula para obtener los límites superiores de confianza en el problema del bandido k-armado:
$$c\sqrt{\frac{\text{ln} N_i}{n_i}}$$
donde $n_i$ es el número de muestras que tenemos para este bandido en particular y $N_i$ es la cantidad total de muestras que tenemos de todos los bandidos. El mismo algoritmo se utiliza en el Monte Carlo Tree Search también para obtener el límite superior de confianza.
Entiendo muy bien lo que es un límite superior de confianza, pero lo que no entiendo es de dónde sale esta fórmula. He intentado buscar en Internet en varios sitios, pero no he podido encontrar una explicación clara de cómo se obtiene esta fórmula. ¿Puede alguien explicarme de dónde procede esta fórmula? Por favor, asumid que no tengo grandes conocimientos de estadística.
0 votos
Personalmente encontré banditalgs.com/2016/09/18/el-algoritmo-del-límite-superior-de-confianza contener una buena explicación. Incluye algunas matemáticas pesadas, pero en mi opinión es posible obtener una buena comprensión incluso si se omiten algunas de las ecuaciones más pesadas. Basta con leer la intuición y algunas de las ecuaciones más sencillas.