Esbozaré algunas cosas pero evitaré una solución explícita. La cuestión es que intentes resolverlo.
En cada paso, tendrás una cierta cantidad de puntos, $M$ . Si te presentas a la siguiente tirada ganarás $k$ más puntos (dándole $M+k$ ) o perderá $M$ (dejándote con $0$ ).
La estrategia de maximización del valor esperado diría que cada vez que un $5/6$ posibilidad de $k$ vale más que un $1/6$ posibilidad de $M$ -- es decir, cuando la ganancia esperada de jugar otra ronda sería positiva, se beneficia (por término medio) de continuar. Un poco de aritmética mental te permite ver cuándo sentarte en una variedad de juegos similares de este tipo (siempre y cuando no sea un juego que se vuelva mucho, mucho más rentable más tarde, no hay necesidad de sumar series, puedes quedarte parado hasta que la ganancia neta en la siguiente tirada ya no sea positiva).
Imagina, por ejemplo, que juegas la primera ronda y obtienes $100 $ puntos. Ahora en la segunda ronda obtendrías $200$ puntos si gana ( $5/6$ oportunidad) y perder $100$ puntos si tienes un $5$ ( $1/6$ oportunidad). La ganancia esperada es $200\times 5/6$ y la pérdida esperada es $100 \times 1/6$ para una rentabilidad esperada de $900/6 = 150$ Por término medio, puede ganar mucho más que perder.
Sin embargo Si estás tratando de ser la persona con más puntos de todos al final de muchas de esas partidas de Avaricia, maximizar el valor esperado en cada turno es no ¡la estrategia óptima para ser el ganador final!
Dependiendo de la posición en la que se encuentre en relación con otros jugadores, puede que le convenga arriesgarse menos para obtener mayores beneficios o apostar por ganancias menores y más seguras.
Imagina que vas segundo pero la persona que va primera te lleva bastante ventaja. Si te sientas en el punto que maximizaría tu rendimiento esperado para esa única ronda, puede que simplemente te asegures de no ganar. Del mismo modo, si va muy por delante en la última ronda, será mejor que se siente mucho antes de lo que maximizaría su rendimiento esperado en esa ronda, ya que podría estar arriesgando innecesariamente una victoria casi segura si continúa.
Si estuvieras jugando muchas más rondas buscarías (aproximadamente) maximizar el valor esperado por turno, pero a medida que te acercas a las últimas rondas la estrategia ganadora cambia: si vas por detrás, debes arriesgar más, si vas por delante, menos. Cuando te acercas al final, no es sólo la ronda actual de puntos lo que importa si quieres maximizar la posibilidad de estar por delante al final.
Puedes calcular la estrategia exacta matemáticamente, pero creo que el profesor está intentando que lleves a cabo la tarea más sencilla de maximizar tus ganancias esperadas (que funciona bastante bien en las fases iniciales y medias del juego iterado).
Tal vez quieras consultar los artículos sobre estrategia para el juego de dados Cerdo (de la que ésta es una variante). Hay mucha información en Internet sobre la estrategia de las distintas versiones de este juego, pero es más divertido resolverlo en detalle uno mismo. Aquí es un documento que también señala que la estrategia de maximización de expectativas no es óptima. Tu juego es un poco diferente (tu recompensa aumenta y todos obtienen las mismas tiradas) pero las ideas básicas son las mismas.
1 votos
Necesidad de añadir la etiqueta de autoaprendizaje.
0 votos
¿Cuántos dados se tiran? ¿Supongo que sólo uno porque no has dado explícitamente un número? Estaría bien aclararlo.