Estamos en una posición del juego en la que hay que tomar una decisión. Como hay relativamente pocas posiciones de juego y movimientos posibles, hemos recogido las estadísticas de ocasiones anteriores en las que se jugó la partida y nos encontramos con la misma posición de juego.
Para cada movimiento, hemos registrado si la selección condujo finalmente a una victoria o a una pérdida.
Move Win Loss
A 3 5
B 2 4
C 0 0
D 0 4
Mi objetivo es seleccionar una jugada al azar, favoreciendo proporcionalmente las jugadas con más probabilidades de ganar. Así, para cada una de las jugadas posibles, me gustaría calcular la probabilidad de que esa jugada sea la más ganadora. Llamémoslas PA, PB, PC y PD. La suma de estos valores debería ser 1.
Dando los datos del ejemplo anterior, mi intuición dice:-
- El movimiento A debería ser el más favorecido, por lo que PA es el mayor de los valores.
- El movimiento C no tiene datos. Podría ser cualquier cosa entre siempre una pérdida y siempre una victoria. Podría tener que ser tratada como un caso especial, ya que no hay nada a partir de lo cual calcular.
- El movimiento D parece pobre hasta ahora. Tal vez sea sólo suerte de muestreo, y con el tiempo nos encontremos con 12 victorias y 4 derrotas. Todavía hay alguna posibilidad de que sea realmente la jugada más ganadora.
Ahora se me atasca. Parece que debería calcular el ratio de victorias para cada una de las jugadas y aplicar algún factor de certeza basado en el número total de veces que se ha seleccionado esa opción para obtener una distribución que represente el ratio de victorias probable para la población subyacente. ¿Cómo puedo combinar estas distribuciones superpuestas y reducirlas a probabilidades para cada movimiento? No estoy seguro de cómo combinaría todos estos números para llegar a PA, PB, PC y PD. ¿Esto parece una reminiscencia de un ANOVA?
En el problema real puede haber entre 1 y 7 movimientos disponibles. Supongo que cualquier respuesta se puede generalizar hasta más movimientos posibles. Por si sirve de algo, el juego no es circular; habiendo hecho un movimiento nunca podemos volver a la misma posición dentro del juego. Sólo se puede alcanzar de nuevo en una nueva partida. Sin embargo, hay múltiples formas de llegar a la misma posición de juego desde el principio de la partida.