10 votos

Estrategia óptima para este juego de patio de Colegio - (carga, bloque, brote)

Me encontré con este juego cuando yo era un niño (que hemos llamado Street Fighter atrás cuando era toda la rabia) y hace poco vi de nuevo con mis sobrinos jugando el mismo juego con un nombre diferente y ligeramente diferentes reglas.

El juego básico es un RPS-estilo de juego donde cada participante elige una de las siguientes acciones por ronda.

  1. Cargo
  2. Bloque
  3. Bola de fuego (usa hasta el 1 de carga)
  4. Super bola de fuego (Utiliza hasta 5 cargos)

Cualquier persona que es golpeado por una bola de fuego, mientras que la carga está muerto. El bloqueo de la cancela bolas de fuego lanzado en usted y dos bolas de fuego dispararon en cada uno de los otros también se cancelan uno al otro. Super bola de fuego pasa a través de los bloques y domina regular de las bolas de fuego automáticamente matar al oponente a menos que super bolas de fuego también.

Me pregunto cuál es la estrategia óptima fue, si cualquier. Durante las rondas que es la mejor forma de fuego/bloque? Es mejor ir a por el super explosión, o para atrapar a su oponente por sorpresa con un oportuno regular bola de fuego?

Qué sería de los números para 2 jugadores? ¿Cómo este aumento de la complejidad, ya que el número de jugadores aumentar así?

Edit: Lo que si el número de cargos requeridos para la super bola de fuego es el aumento/disminución?

2voto

Kyle Puntos 21

Aquí es muy incompleta respuesta que podría ayudar a hacer algunos progresos para dos jugadores de la versión.

  1. Voy a ignorar super-fire-ball.

  2. Voy a hacer una suposición de lo que simplifica mucho las cosas. Si el cargo se desequilibran, el jugador con más cargos pueden forzar la victoria. (Tengo serias dudas acerca de esto.)

En este caso, el equilibrio de juego consiste en la carga, siempre que no tengan un cargo y, de igual forma aleatoria a lo contrario.

En la primera ronda, que es débilmente dominante a la carga (esto no depende de mi suposición. Tener menos cargos que no puede aumentar su probabilidad de perder contra cualquier estrategia).

En la segunda ronda,

Si los bloques 1 y 2 usa bola de fuego, luego 1 gana con el tiempo (por supuesto).

Si los bloques 1 y 2 bloques, el juego simplemente se inicia en el mismo estado.

Si los bloques 1 y 2 cargos, a continuación, 2 gana con el tiempo (por supuesto)

Si 1 de los cargos y 2 utiliza la bola de fuego, luego ganadora de 2 carreras

Si 1 de los cargos y a 2 cuadras, a continuación, 1 gana con el tiempo

Si 1 de los cargos y 2 cargos, el juego continúa con ambos en 2 cargos.

Si 1 utiliza la bola de fuego y a 2 cuadras, a continuación, 2 gana con el tiempo

Si 1 utiliza la bola de fuego y 2 cargos, luego 1 gana

Si 1 utiliza la bola de fuego y 2 utiliza la bola de fuego, luego el juego se vuelve al estado original.

Observe que no importa lo que 1 no, el juego termina en una victoria por 1, una victoria por 2, o continua (cada una con cargas iguales). Estos son exactamente los mismos resultados posibles en cada ronda de un mejor-de-una piedra-papel-tijeras de juego. El único equilibrio es aleatorizar igual a lo largo de las tres opciones (haciendo caso omiso de super-fire-ball) en cada ronda, a menos que ninguno de los jugadores tiene un cargo en cuyo caso, tanto de carga.

2voto

mjqxxxx Puntos 22955

Deje $X_{a,b}$ ser el beneficio esperado de este juego para un jugador con $a$ de los cargos cuando el otro jugador ha $b$ de los cargos, donde $+1$ es un triunfo y $-1$ es una pérdida, y suponiendo juego óptimo. Vamos a tomar el costo de una super bola de fuego a ser $M>1$. Por simetría, $X_{a,b}=-X_{b,a}$, y claramente $X_{a,a}=0$ cualquier $a$. De estado $(0,0)$, ambos jugadores estarán a cobrar hasta el estado de $(1,1)$; del mismo modo, desde el estado $(M,M)$, ambos jugadores super-bola de fuego de vuelta a $(0,0)$. Siguiente, $X_{M,a}=+1$ cualquier $a<M$, debido a que el primer jugador va a ganar de inmediato con una super bola de fuego. Finalmente, $X_{M-1,0}=+1$, debido a que el primer jugador puede cargar de forma segura una vez y, a continuación, super-bola de fuego, cualquiera que sea el segundo jugador. Todas las demás ganancias y las estrategias son inicialmente desconocido.

Ahora, podemos calcular el equilibrio de la estrategia (y la rentabilidad) para cada jugador en estado de $(a,b)$ como sabemos los beneficios de algunos de los estados vecinos. En concreto, supongamos que el primer jugador se carga con una probabilidad de $c$, fireballing con una probabilidad de $f$, y el bloqueo con una probabilidad de $b$ donde$0 \le c,f,b\le 1$$c+f+b=1$, y que el segundo jugador probabilidades son $c'$, $f'$, y $b'$. A continuación, el beneficio esperado para el primer jugador satisface $$ X_{a,b}=cc'X_{a+1,b+1}+ff'X_{a-1,b-1}+bb'X_{a,b}-cf'+fc'+fb'X_{a-1,b}+bf'X_{a,b-1}+cb'X_{a+1,b}+bc'X_{a,b+1}, $$ así $$ X_{a,b}=\frac{1}{1-bb'}\times\\ \left(cc'X_{a+1,b+1}+ff'X_{a-1,b-1}-cf'+fc'+fb'X_{a-1,b}+bf'X_{a,b-1}+cb'X_{a+1,b}+bc'X_{a,b+1}\right). $$ Para que esto sea un equilibrio de estrategia, su derivada parcial con respecto a cada probabilidad, sujeto a las limitaciones de las probabilidades, debe ser cero. (En las fronteras, cuando la probabilidad es cero o uno, su derivada parcial puede ser distinto de cero si tiene el signo correcto.) Las cosas se han simplificado cuando el segundo jugador no tiene cargos, desde entonces él no puede bola de fuego ($f'=0$), y el primer jugador no necesita de bloque ($b=0$). En ese caso $$ X_{a,0}=cc'X_{a+1,1}+fc'+fb'X_{a-1,0}+cb'X_{a+1,0}. $$ Por supuesto, más simplificaciones que se producen cuando los vecinos de las rentabilidades son cero.


Tenga en cuenta que si $M=2$, entonces todas las rentabilidades son conocidos, y la única incógnita de la estrategia es para el estado de $(1,1)$. En ese estado, bola de fuego beats carga, carga beats bloque y bloque de beats bola de fuego... así que el juego es isomorfo a piedra-papel-tijeras, y el equilibrio de Nash de la estrategia en el estado de $(1,1)$ es elegir cada moverse con igual probabilidad.

Lo primero conseguir interesantes para $M=3$. Aquí se han desconocido las rentabilidades en los estados $(1,0)$$(2,1)$, y desconoce el equilibrio de las estrategias en los estados $(1,1)$, $(2,2)$, $(1,0)$, y $(2,1)$. Vamos a considerar en primer lugar el estado de $(1,0)$. La rentabilidad para el primer jugador es $$ X_{1,0}=cc'X_{2,1}+fc'+bc'=cc'X_{2,1}+(1-c)c'+c(1-c')=cc(X_{2,1}-2)+c+c'; $$ configuración de las derivadas a cero de los rendimientos $$ c=c'=X_{1,0}=\frac{1}{2-X_{2,1}}. $$ En el estado $(2,1)$, la rentabilidad es $$ X_{2,1}=\frac{cc'+ff'X_{1,0}-cf'+fc'+bf'+cb'}{1-bb'}=\frac{(1-f-b)(1-2f')+f(f'X_{1,0}+c')+bf'}{1-b(1-f'-c')}. $$ Configuración de la derivada con respecto al $f$ a cero da $$ -(1-2f')+(f'X_{1,0}+c')=f'(2+X_{1,0})+c'-1=0\implica que f'=\frac{1-c'}{2+X_{1,0}}. $$ Configuración de la derivada con respecto al $c'$ a cero da $$ 0=\frac{f}{1-b(1-f'-c')}-\frac{b}{1-b(1-f'-c')}X_{2,1}\implica f=bX_{2,1}. $$ Configuración de la derivada con respecto al $b$ a cero da $$ 0=\frac{3f'-1}{1-b(1-f'-c')}+\frac{1-f'-c'}{1-b(1-f'-c')}X_{2,1}\implica que f'(3-X_{2,1}) + (1-c')X_{2,1}-1=0\implica que f'=\frac{1-(1-c')X_{2,1}}{3-X_{2,1}}. $$ Finalmente, la configuración de la derivada con respecto al $f'$ a cero da $$ 0=\frac{-2(1-f-b)+fX_{1,0}+b}{1-b(1-f'-c')}-\frac{b}{1-b(1-f'-c')}X_{2,1}\implica -2+f(2+X_{1,0})+b(3-X_{2,1})=0\implica f=\frac{2-b 3-X_{2,1})}{2+X_{1,0}}. $$ La combinación de la segunda y cuarta ecuaciones, y usando el hecho de que $X_{1,0}=1/(2-X_{2,1})$, da $$ b=\frac{2(2-X_{2,1})}{6-X_{2,1}^2}; \qquad f = \frac{2X_{2,1}(2-X_{2,1})}{6-X_{2,1}^2}. $$ Del mismo modo, la combinación de la primera y tercera ecuaciones da $$ c'=\frac{1+2X_{2,1}-X_{2,1}^2}{6-X_{2,1}^2}; \qquad f'=\frac{2-X_{2,1}}{6-X_{2,1}^2}. $$ La alimentación de todo lo nuevo en la ecuación de $X_{2,1}$, nos encontramos con que $X_{2,1}$ es una raíz de la ecuación cúbica $x^3-x^2-4x+2=0$; debe ser la raíz real entre el$0$$1$, por lo que numéricamente $X_{2,1}\approx 0.47068$. Lo que esto significa es que, desde el estado de $(2,1)$, el primer jugador puede esperar ganar sólo acerca de $3/4$ del tiempo. El segundo jugador puede luchar... y debe hacerlo mediante el cobro de $30\%$ del tiempo, fireballing $26\%$ del tiempo, y bloquear el resto de $44\%$ del tiempo. Del mismo modo, $X_{1,0}\approx 0.6539$, por lo que el primer jugador puede ganar alrededor de $5/6$ del tiempo de ese estado; en el segundo jugador debe luchar por la carga de $65\%$ del tiempo. Las estrategias óptimas seguir a partir de estos números, la clave para llevar, sin embargo, es que (1) un cargo ventaja no garantiza la victoria, y (2) la estrategia óptima usa probabilidades de que no son triviales números algebraicos, en el caso general.

0voto

Piotr G Puntos 142

Soy nuevo aquí, espero que no sea mala forma para publicar una respuesta parcial a su propia pregunta!

Gracias CommonerG para ese análisis. Tu post me hizo pensar acerca de esto, incluso más.

Parece que hay el siguiente juego de los estados, y cambia a otro estado con base en los resultados de la ronda anterior.

  1. Ambos jugadores no tienen cargos. (Estado Inicial)
  2. Ambos jugadores tienen al menos un cargo. (Cargo de paridad)
  3. El jugador 1 tiene al menos un cargo y el Jugador 2 tiene ningún cargo. (Carga de la ventaja)
  4. Inversa de Estado 3 (Cargo desventaja)

La razón por la que caracteriza el juego de los estados es que me quedé pensando en Asunción# 2 y seguía pensando que mientras que el Jugador 2 se encuentra en desventaja, él todavía puede forzar el juego de vuelta a la paridad o el estado inicial y todavía tiene una oportunidad. Así que pensé, ¿cuál es esa oportunidad? Cuánto de una ventaja es? Supongo que este tipo de hace más interesante. Dado que el juego es simétrico desde el estado inicial, todavía se puede llegar a un punto de asimetría (a diferencia de los RPS que es simétrica en todo momento). Tal vez podríamos desarrollar algún tipo de estrategia mixta óptima para una ventaja de jugador y una desventaja jugador.

Así que aquí está mi pensamiento hasta el momento.

  1. Estado inicial - En el estado inicial, ambos jugadores serán siempre de cargo.

  2. Cargo de la paridad

    Suponiendo que cada jugador tiene una oportunidad igual para recoger cada acción, cada uno de estos tiene un 1/9 la oportunidad de suceder.

Ahora es mi turno para asumir algo que no estoy seguro acerca de. Creo que el número de cargos sobre otro no importa (es decir, 1 carga 2 carga 3 carga ventaja es todo lo mismo y no afecta a la estrategia, excepto en el minúsculo caso de que él se acumula 5.) La única diferencia es que el estado de transición para una desventaja estado si el jugador se clava a sí mismo fuera de ella.

  1. Carga de la ventaja / desventaja

En este estado, la ventaja de jugador nunca bloque debido a que su oponente no puede disparar. La desventaja jugador nunca va a disparar. enter image description here

*La paridad con algunos cambios en la 3ª (el Fuego, el bloque) y 9 (fuego, fuego) plazas. Yo creo?

Y, a continuación, la desventaja gráfico sería el opuesto. enter image description here

He aquí lo que voy a hacer. Voy a tratar de ejecutar escenarios donde P1 y P2 de escoger la acción del 50% del tiempo en la ventaja/desventaja de los escenarios. A continuación, calcular ganar % suponiendo que, y revisar las probabilidades en consecuencia, para obtener finalmente un curso de acción óptimo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X