El momento de parar depende del número de rondas que puedas jugar. Si se te permite jugar durante un número arbitrario de rondas, puedes decidir no parar hasta que tengas un millón de puntos. Entonces, con la probabilidad $1$ tarde o temprano (lo más probable es que mucho más tarde), saldrás de la mesa con un millón de puntos.
Así que el juego sólo es interesante cuando hay un límite de tiempo después del cual debe dejar de jugar e irse con lo que tenga en ese momento si no ha cobrado antes.
A estrategia es una función $f(N,S)$ que da nuestra decisión de cobrar o seguir jugando como la salida de dos entradas: $N$ es el número de rondas que quedan, y $S$ es el número de puntos que tienes cuando tomas la decisión. El hecho de que se suponga que se utiliza la programación dinámica es una pista que no se supone que debe encontrar una fórmula explícita para $f(N,S)$ sino para calcular un tabla de valores para $f(N,S)$ .
Es bastante fácil analizar cuál es la opción óptima para $N=1$ es. Si lo dejas ahora tus ganancias esperadas son $S$ si juegas la última ronda tus ganancias esperadas son $\frac16 0 + \frac56(S+7)$ (ya que una tirada que no te quiebra te hace ganar 7 puntos de media). Por lo tanto, debe jugar la última ronda si $\frac {5S}6 + \frac{35}6 \ge S$ que es si $S\le 35$ .
Para que pueda proceder a $N=2$ es necesario calcular una tabla auxiliar del esperado valor del juego antes de usted hace el $f(1,S)$ para varios $S$ . Para un tamaño suficientemente grande $S$ siempre hay que cobrar, en cuyo caso el valor esperado es $S$ por lo que sólo hay que tabular los valores esperados para $S$ menos que el umbral de cobro.
Ahora puedes calcular $f(2,S)$ de la siguiente manera: El valor esperado de la salida es $S$ . Para hallar el valor esperado del juego, considere los distintos resultados de la tirada de dados: puede quebrar o ganar 3, 4, 5, ..., 10, 11 puntos, cada uno con una probabilidad determinada. Cada uno de estos casos te lleva a un estado $(1,S')$ que ya has calculado el valor esperado; la media ponderada de esas expectativas es el valor de seguir adelante. Compare esto con $S$ para saber si debes irte o seguir.
Ahora haz lo mismo para $f(3,-)$ , $f(4,-)$ y así sucesivamente, hasta llegar a la longitud real de su juego.
(Tenga en cuenta que la estrategia real decisiones se puede hacer en tiempo constante sobre la marcha si sólo se han tabulado los valores del juego en cada estado posible).