Aquí hay un análisis que trata de tener en cuenta los redoblamientos y la propiedad del cubo. Se basa en ignorar completamente el actual juego del backgammon y sustituyendo la suposición (bastante contrafactual) supuesto de que el juego subyacente es un simple movimiento browniano: El juego comienza colocando una ficha en el punto 0,5 de una escala de 0 a 1. El contador realiza entonces un paseo aleatorio unidimensional en tiempo continuo. tiempo continuo. Cuando llega a 1 o a 0, el juego termina y el jugador A o B, respectivamente, es declarado ganador. Mientras el juego está en curso, los dos jugadores tienen la opción de doblar y redoblar en en cualquier momento, pero de acuerdo con las reglas de doblaje del backgammon. reglas de backgammon.
En este juego, la única elección que tiene que hacer el jugador es cuándo ofrecer el cubo. Su estrategia puede resumirse en dos números $k$ y $\lambda$ . Cuando un jugador posee el cubo de doblar, ofrecerá una redoble en cuanto la posición sea $k$ o más; ofrecerá el primero doblando cuando la posición alcanza $\lambda$ por primera vez. La situación antes de la primera duplicación es sensiblemente diferente de cuando el cubo tiene dueño, por lo que $\lambda$ puede diferir de $k$ pero ya que un paseo aleatorio es simétrico bajo los desplazamientos de tiempo, no hay razón para para considerar estrategias en las que $k$ cambia a medida que el juego envejece.
Vamos a encontrar el óptimo $k$ primero. Considere dos funciones $f$ y $g$ tal que $f(p)$ es el esperado valor del juego (para el jugador que gana en $p=1$ y asumiendo un juego óptimo) en la posición $p$ Dado que el jugador posee el cubo que el jugador posee el cubo, y $g(p)$ es el valor esperado cuando el jugador no posee el cubo. Estos valores esperados son siempre entre $0$ y $1$ ; nos imaginamos que ya hemos pagado $\frac 12$ en el bote que el ganador se llevará a casa.
Por simetría debemos tener (si ambos jugadores juegan de forma óptima, lo que significa en particular que su $k$ s son los mismos): $$g(p)=1-f(1-p)$$ Mira el valor del juego en la posición $k$ cuando estamos a punto de ofrecer un redoble; llamemos a este valor $v$ . Entonces $$v=f(k) = \min(1, 2 g(k) - \frac12)$$ El $\min$ es porque el oponente sólo aceptará el doblaje si si hacerlo le resulta más ventajoso que rechazarlo. Restando $\frac 12$ de doblar el bote (o en otras palabras, para la palabras, por el riesgo de que finalmente perdamos 2 unidades en lugar de 1).
Ahora, está claro que debemos redoblar al menos tan pronto como el punto en el que un oponente racional lo rechazaría desde ese punto, esperar más tiempo no nos va a aportar nada. Así que podemos eliminar la $\min(1,\ldots)$ y sólo recuerda que $k$ debe ser elegidos de forma que $v\le 1$ . Entonces tenemos $$\tag{1} v = 2g(k)-\frac12 = 2(1 - f(1-k))-\frac 12 = \frac32 - 2f(1-k)$$
Cuando $p$ está entre $0$ y $k$ el valor del juego depende de la probabilidad de que la posición alcance $k$ antes de que llegue a $0$ . En una maravillosa propiedad del movimiento browniano, esta probabilidad es simplemente $p/k$ , por lo que tenemos $$\tag{2} f(p) = \frac pk f(k) = \frac vk p$$ Claramente, para un juego óptimo debemos elegir $k$ tal que la constante de proporcionalidad $\frac vk$ es lo más grande posible. Para encontrar la relación entre $v$ y $k$ especializar (2) en $p=1-k$ : $$ f(1-k) = \frac{1-k}{k} v$$ y telescopio que en (1): $$ v = \frac 32 - 2\frac{1-k}{k} v \quad\Longrightarrow\quad v = \frac{3k}{4-2k}$$ Así, $\frac vk$ que estamos tratando de maximizar, es $\frac{3}{4-2k}$ . Esto aumenta monotónicamente con $k$ Así que queremos tener $k$ tan grande como sea posible. Pero, como se ha argumentado anteriormente, no podemos tener $v>1$ por lo que encontramos el óptimo $k$ resolviendo $1=v=\frac{3k}{4-2k}$ para $k$ . Esto da como resultado $$k=0.8$$ para un juego óptimo una vez que se posee el cubo de doblar.
Ahora estamos listos para encontrar $\lambda$ . Al principio del juego la situación es simétrica, por lo que si ambos jugadores siguen la misma estrategia (óptima) estrategia, cada jugador hará la primera oferta de doblar con probabilidad $\frac 12$ . El objetivo es entonces maximizar el valor del juego después de que de que se produzca esa primera duplicación: $$ g(\lambda) = 1-f(1-\lambda) = 1 - \frac{1-\lambda}k = 1.25\lambda - 0.25$$ que se maximiza eligiendo $\lambda$ tan grande como sea posible. Pero como antes, la elección de un $\lambda$ tan grande que el adversario rechaza nuestro doblar es un desperdicio. Así que, de hecho $\lambda$ debe elegirse justo en el umbral en el que el adversario empezaría a rechazar el doblar. Pero resulta que ese es el mismo criterio que se utilizó para encontrar $k$ Así que, de hecho $\lambda=k$ es óptima.
Conclusión: Para el juego óptimo con doblajes y redoblajes, suponiendo que el backgammon puede ser modelado como un movimiento browniano:
- Ofrezca doblar o redoblar en cuanto su posición sea del 80% o más.
- Acepte una oferta de duplicación o redoblamiento si su posición es mejor que el 20%.
Ejercicio: demostrar que con esta estrategia, no importa qué estrategia su oponente sigue, su resultado neto esperado de un juego nunca es negativo.