Deje $X_{a,b}$ ser el beneficio esperado de este juego para un jugador con $a$ de los cargos cuando el otro jugador ha $b$ de los cargos, donde $+1$ es un triunfo y $-1$ es una pérdida, y suponiendo juego óptimo. Vamos a tomar el costo de una super bola de fuego a ser $M>1$. Por simetría, $X_{a,b}=-X_{b,a}$, y claramente $X_{a,a}=0$ cualquier $a$. De estado $(0,0)$, ambos jugadores estarán a cobrar hasta el estado de $(1,1)$; del mismo modo, desde el estado $(M,M)$, ambos jugadores super-bola de fuego de vuelta a $(0,0)$. Siguiente, $X_{M,a}=+1$ cualquier $a<M$, debido a que el primer jugador va a ganar de inmediato con una super bola de fuego. Finalmente, $X_{M-1,0}=+1$, debido a que el primer jugador puede cargar de forma segura una vez y, a continuación, super-bola de fuego, cualquiera que sea el segundo jugador. Todas las demás ganancias y las estrategias son inicialmente desconocido.
Ahora, podemos calcular el equilibrio de la estrategia (y la rentabilidad) para cada jugador en estado de $(a,b)$ como sabemos los beneficios de algunos de los estados vecinos. En concreto, supongamos que el primer jugador se carga con una probabilidad de $c$, fireballing con una probabilidad de $f$, y el bloqueo con una probabilidad de $b$ donde$0 \le c,f,b\le 1$$c+f+b=1$, y que el segundo jugador probabilidades son $c'$, $f'$, y $b'$. A continuación, el beneficio esperado para el primer jugador satisface
$$
X_{a,b}=cc'X_{a+1,b+1}+ff'X_{a-1,b-1}+bb'X_{a,b}-cf'+fc'+fb'X_{a-1,b}+bf'X_{a,b-1}+cb'X_{a+1,b}+bc'X_{a,b+1},
$$
así
$$
X_{a,b}=\frac{1}{1-bb'}\times\\ \left(cc'X_{a+1,b+1}+ff'X_{a-1,b-1}-cf'+fc'+fb'X_{a-1,b}+bf'X_{a,b-1}+cb'X_{a+1,b}+bc'X_{a,b+1}\right).
$$
Para que esto sea un equilibrio de estrategia, su derivada parcial con respecto a cada probabilidad, sujeto a las limitaciones de las probabilidades, debe ser cero. (En las fronteras, cuando la probabilidad es cero o uno, su derivada parcial puede ser distinto de cero si tiene el signo correcto.) Las cosas se han simplificado cuando el segundo jugador no tiene cargos, desde entonces él no puede bola de fuego ($f'=0$), y el primer jugador no necesita de bloque ($b=0$). En ese caso
$$
X_{a,0}=cc'X_{a+1,1}+fc'+fb'X_{a-1,0}+cb'X_{a+1,0}.
$$
Por supuesto, más simplificaciones que se producen cuando los vecinos de las rentabilidades son cero.
Tenga en cuenta que si $M=2$, entonces todas las rentabilidades son conocidos, y la única incógnita de la estrategia es para el estado de $(1,1)$. En ese estado, bola de fuego beats carga, carga beats bloque y bloque de beats bola de fuego... así que el juego es isomorfo a piedra-papel-tijeras, y el equilibrio de Nash de la estrategia en el estado de $(1,1)$ es elegir cada moverse con igual probabilidad.
Lo primero conseguir interesantes para $M=3$. Aquí se han desconocido las rentabilidades en los estados $(1,0)$$(2,1)$, y desconoce el equilibrio de las estrategias en los estados $(1,1)$, $(2,2)$, $(1,0)$, y $(2,1)$. Vamos a considerar en primer lugar el estado de $(1,0)$. La rentabilidad para el primer jugador es
$$
X_{1,0}=cc'X_{2,1}+fc'+bc'=cc'X_{2,1}+(1-c)c'+c(1-c')=cc(X_{2,1}-2)+c+c';
$$
configuración de las derivadas a cero de los rendimientos
$$
c=c'=X_{1,0}=\frac{1}{2-X_{2,1}}.
$$
En el estado $(2,1)$, la rentabilidad es
$$
X_{2,1}=\frac{cc'+ff'X_{1,0}-cf'+fc'+bf'+cb'}{1-bb'}=\frac{(1-f-b)(1-2f')+f(f'X_{1,0}+c')+bf'}{1-b(1-f'-c')}.
$$
Configuración de la derivada con respecto al $f$ a cero da
$$
-(1-2f')+(f'X_{1,0}+c')=f'(2+X_{1,0})+c'-1=0\implica que f'=\frac{1-c'}{2+X_{1,0}}.
$$
Configuración de la derivada con respecto al $c'$ a cero da
$$
0=\frac{f}{1-b(1-f'-c')}-\frac{b}{1-b(1-f'-c')}X_{2,1}\implica f=bX_{2,1}.
$$
Configuración de la derivada con respecto al $b$ a cero da
$$
0=\frac{3f'-1}{1-b(1-f'-c')}+\frac{1-f'-c'}{1-b(1-f'-c')}X_{2,1}\implica que f'(3-X_{2,1}) + (1-c')X_{2,1}-1=0\implica que f'=\frac{1-(1-c')X_{2,1}}{3-X_{2,1}}.
$$
Finalmente, la configuración de la derivada con respecto al $f'$ a cero da
$$
0=\frac{-2(1-f-b)+fX_{1,0}+b}{1-b(1-f'-c')}-\frac{b}{1-b(1-f'-c')}X_{2,1}\implica -2+f(2+X_{1,0})+b(3-X_{2,1})=0\implica f=\frac{2-b 3-X_{2,1})}{2+X_{1,0}}.
$$
La combinación de la segunda y cuarta ecuaciones, y usando el hecho de que $X_{1,0}=1/(2-X_{2,1})$, da
$$
b=\frac{2(2-X_{2,1})}{6-X_{2,1}^2}; \qquad f = \frac{2X_{2,1}(2-X_{2,1})}{6-X_{2,1}^2}.
$$
Del mismo modo, la combinación de la primera y tercera ecuaciones da
$$
c'=\frac{1+2X_{2,1}-X_{2,1}^2}{6-X_{2,1}^2}; \qquad f'=\frac{2-X_{2,1}}{6-X_{2,1}^2}.
$$
La alimentación de todo lo nuevo en la ecuación de $X_{2,1}$, nos encontramos con que $X_{2,1}$ es una raíz de la ecuación cúbica $x^3-x^2-4x+2=0$; debe ser la raíz real entre el$0$$1$, por lo que numéricamente $X_{2,1}\approx 0.47068$. Lo que esto significa es que, desde el estado de $(2,1)$, el primer jugador puede esperar ganar sólo acerca de $3/4$ del tiempo. El segundo jugador puede luchar... y debe hacerlo mediante el cobro de $30\%$ del tiempo, fireballing $26\%$ del tiempo, y bloquear el resto de $44\%$ del tiempo. Del mismo modo, $X_{1,0}\approx 0.6539$, por lo que el primer jugador puede ganar alrededor de $5/6$ del tiempo de ese estado; en el segundo jugador debe luchar por la carga de $65\%$ del tiempo. Las estrategias óptimas seguir a partir de estos números, la clave para llevar, sin embargo, es que (1) un cargo ventaja no garantiza la victoria, y (2) la estrategia óptima usa probabilidades de que no son triviales números algebraicos, en el caso general.