Usted puede calcular directamente la estrategia óptima y su valor esperado con un programa dinámico (inducción hacia atrás).
Considerar los posibles estados del juego, que puede ser completamente descrito por (el número de -1 cartas restantes, el número de +1 cartas restantes), con 16 posibilidades.
Colocarlos en un cuadrado de la cuadrícula de la siguiente manera (podría ser mejor en el papel, si se puede hacer es un diamante (3,3) y la izquierda (0,0) a la derecha)
$$\begin{array}{ccccccc}
\stackrel{(0)}{(3,3)} & \rightarrow & \stackrel{(1)}{(3,2)} & \rightarrow & \stackrel{(2)}{(3,1)} & \rightarrow & \stackrel{(3)}{(3,0)}\\
\downarrow && \downarrow && \downarrow && \downarrow\\
\stackrel{(-1)}{(2,3)} & \rightarrow & \stackrel{(0)}{(2,2)} & \rightarrow & \stackrel{(1)}{(2,1)} & \rightarrow & \stackrel{(2)}{(2,0)}\\
\downarrow && \downarrow && \downarrow && \downarrow\\
\stackrel{(-2)}{(1,3)} & \rightarrow & \stackrel{(-1)}{(1,2)} & \rightarrow & \stackrel{(0)}{(1,1)} & \rightarrow & \stackrel{(1)}{(1,0)}\\
\downarrow && \downarrow && \downarrow && \downarrow\\
\stackrel{(-3)}{(0,3)} & \rightarrow & \stackrel{(-2)}{(0,2)} & \rightarrow & \stackrel{(-1)}{(0,1)} & \rightarrow & \stackrel{(0)}{(0,0)}\\
\end{array}
$$
Las entradas están en la parte superior (puntuación si usted deja de aquí), inferior (#-1, #+1) que quedan en la baraja.
El truco es trabajar hacia atrás desde el (0,0) de la esquina y decidir en cada estado si desea continuar o no. Ejemplos:
- No hay decisión en (0,0), es un valor de 0.
- En (0,1) la elección es entre la toma de -1, o el dibujo de una tarjeta de la cual se obtiene 0. Ya que el dibujo es mejor, ahora sabemos (0,1) es también un valor de 0.
- En (1,0) tomamos 1 en lugar de dibujo que se obtiene 0.
- (1,1) una verdadera decisión. Detener vale 0. Dibujo consigue 1/2 oportunidad para mover a (1,0) [vale la pena 1] y 1/2 oportunidad para mover a (0,1) [vale 0]. Así que el dibujo es la pena 1/2 en promedio, y es óptimo para hacerlo.
Usted puede continuar llenando todos los estados para encontrar la estrategia óptima. Tenga en cuenta que la desigual tarjeta de cuenta de la materia: a decir (1,2), dibujo le da 1/3 oportunidad para mover a (0,2) y 2/3 oportunidad para mover a (1,1).
El lleno de la plaza se ve así:
$$\begin{array}{ccccccc}
\stackrel{17/20}{(3,3)} & \rightarrow & \stackrel{6/5}{(3,2)} & \rightarrow & \stackrel{\mathbf{2}}{(3,1)} & & \stackrel{\mathbf{3}}{(3,0)}\\
\downarrow && \downarrow && &&\\
\stackrel{1/2}{(2,3)} & \rightarrow & \stackrel{2/3}{(2,2)} & \rightarrow & \stackrel{\mathbf{1}}{(2,1)} & \rightarrow^{?} & \stackrel{\mathbf{2}}{(2,0)}\\
\downarrow && \downarrow && \downarrow^{?} &&\\
\stackrel{1/4}{(1,3)} & \rightarrow & \stackrel{1/3}{(1,2)} & \rightarrow & \stackrel{1/2}{(1,1)} & \rightarrow & \stackrel{\mathbf{1}}{(1,0)}\\
\downarrow && \downarrow && \downarrow &&\\
\stackrel{0}{(0,3)} & \rightarrow & \stackrel{0}{(0,2)} & \rightarrow & \stackrel{0}{(0,1)} & \rightarrow & \stackrel{\mathbf{0}}{(0,0)}\\
\end{array}$$
Los estados donde usted deja de tener su valor en negrita. En (2,1) no importa si dibujar o parada.
Puesto que usted ha hecho en el valor maximización de las opciones en cada paso, incluyendo los efectos de las posteriores decisiones, la Estrategia 2 es probado óptima, con un valor exactamente 17/20.