5 votos

¿Cuál es la estrategia óptima de este juego de dados?

Estoy trabajando en un problema de programación dinámica. Quiero encontrar la estrategia óptima y simularla.

La descripción del juego:

El jugador tira dos dados.

  • Si los números mostrados por los dos dados son diferentes, el jugador sumará la suma dada ( $2+3$ por ejemplo) a las recompensas acumuladas que tiene.

  • Si los números mostrados por los dos dados son iguales, el jugador perderá toda su recompensa.

He empezado a modelar el problema. El estado del sistema es el siguiente: Elegí un número al azar (300 por ejemplo) que puede ser la máxima recompensa para $N$ juego de rondas. El estado es $V_k(S,D)$ donde $S$ es la suma acumulada y $D$ es la suma de los dos números que aparecen en los dos dados.

Si suponemos que el número de rondas es finito, ¿cuál será la estrategia óptima de forma simple?

En el caso del juego infinito, ¿cuál es la media de la recompensa?

Referencia : http://people.brandeis.edu/~igusa/Math56aS08/Math56a_S08_notes041.pdf

Gracias de antemano chicos :)

4voto

sewo Puntos 58

El momento de parar depende del número de rondas que puedas jugar. Si se te permite jugar durante un número arbitrario de rondas, puedes decidir no parar hasta que tengas un millón de puntos. Entonces, con la probabilidad $1$ tarde o temprano (lo más probable es que mucho más tarde), saldrás de la mesa con un millón de puntos.

Así que el juego sólo es interesante cuando hay un límite de tiempo después del cual debe dejar de jugar e irse con lo que tenga en ese momento si no ha cobrado antes.

A estrategia es una función $f(N,S)$ que da nuestra decisión de cobrar o seguir jugando como la salida de dos entradas: $N$ es el número de rondas que quedan, y $S$ es el número de puntos que tienes cuando tomas la decisión. El hecho de que se suponga que se utiliza la programación dinámica es una pista que no se supone que debe encontrar una fórmula explícita para $f(N,S)$ sino para calcular un tabla de valores para $f(N,S)$ .

Es bastante fácil analizar cuál es la opción óptima para $N=1$ es. Si lo dejas ahora tus ganancias esperadas son $S$ si juegas la última ronda tus ganancias esperadas son $\frac16 0 + \frac56(S+7)$ (ya que una tirada que no te quiebra te hace ganar 7 puntos de media). Por lo tanto, debe jugar la última ronda si $\frac {5S}6 + \frac{35}6 \ge S$ que es si $S\le 35$ .

Para que pueda proceder a $N=2$ es necesario calcular una tabla auxiliar del esperado valor del juego antes de usted hace el $f(1,S)$ para varios $S$ . Para un tamaño suficientemente grande $S$ siempre hay que cobrar, en cuyo caso el valor esperado es $S$ por lo que sólo hay que tabular los valores esperados para $S$ menos que el umbral de cobro.

Ahora puedes calcular $f(2,S)$ de la siguiente manera: El valor esperado de la salida es $S$ . Para hallar el valor esperado del juego, considere los distintos resultados de la tirada de dados: puede quebrar o ganar 3, 4, 5, ..., 10, 11 puntos, cada uno con una probabilidad determinada. Cada uno de estos casos te lleva a un estado $(1,S')$ que ya has calculado el valor esperado; la media ponderada de esas expectativas es el valor de seguir adelante. Compare esto con $S$ para saber si debes irte o seguir.

Ahora haz lo mismo para $f(3,-)$ , $f(4,-)$ y así sucesivamente, hasta llegar a la longitud real de su juego.

(Tenga en cuenta que la estrategia real decisiones se puede hacer en tiempo constante sobre la marcha si sólo se han tabulado los valores del juego en cada estado posible).

4voto

Asumiré que cuando se pierde todo el dinero se acaba el juego y no se puede jugar más. Bajo este supuesto, deberías no seguir tirando incluso con tiradas ilimitadas disponibles, porque si juegas demasiado tiempo, al final llegarás a cero y lo perderás todo.

A partir de $S$ dólares, la cantidad esperada después de tirar los dados una vez más es $$0\,{6\over 36}+(S+3){2\over 36}+(S+4){2\over 36}+(S+5){3\over 36}+\cdots+(S+11){2\over 36}= {5\over 6}S+{35\over 6}.$$ El primer término, con valor cero, corresponde a sacar dobles y perder todo su dinero. En caso contrario, tu dinero aumenta entre 3 y 11 dólares.

La estrategia óptima es jugar hasta que se agoten las tiradas, o hasta que la cantidad actual $S$ es mayor o igual que ${5\over 6}S+{35\over 6}$ es decir $S\geq 35.$ En este último caso, el riesgo de perder la fortuna supera las posibles ganancias, por lo que es mejor dejarlo.

Para $S\geq 1$ la función de valor para el juego con $N\geq 0$ rollos es $$v^N(S)=\cases{35-(5/6)^N(35-S)&for $ S\leq 35 $\cr S&for $ S\geq 35 $.}$$ Este es el resultado esperado cuando se empieza con $S$ dólares y seguir la estrategia óptima.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X