13 votos

Estrategia óptima para Rock Paper Scissors con diferentes recompensas

Imagina Rock Paper scissors, pero donde el ganar con la otra mano le da un diferente recompensa.

  • Si usted gana con el Rock, consigue \$9. Your opponent loses the \$9.

  • Si usted gana con Papel, consigue \$3. Your opponent loses the \$3.

  • Si usted gana con Tijeras, consigue \$5. Your opponent loses the \$5.

  • Si el empate, usted recibe $0

    Mi primera intuición sería que usted debe tocar Rock con una probabilidad de 9/(9+3+5), Papel con 3/(9+3+5) y Tijeras con 5/(9+3+5) sin embargo este parece mal, ya que no toma en consideración el riesgo que usted se exponga a (si usted juega Paper, usted tiene una ventaja de \$3 but a downside of \$5).

Así que la pregunta, en un juego -- ¿cuál es la estrategia ideal.

Edit: Por "ideal" de la estrategia, me refiero a jugar en contra de una confrontación jugador que sabe que su estrategia.

11voto

mjqxxxx Puntos 22955

Deje $(x_1,x_2,x_3)$ ser el primer jugador de la estrategia (es decir, sus probabilidades de jugar a piedra, papel y tijeras, respectivamente), y deje $(y_1,y_2,y_3)$ ser el segundo jugador de la estrategia. El beneficio esperado para el primer jugador es $$ P(x,y)=9(x_1y_3-x_3y_1)+3(x_2y_1-x_1y_2)+5(x_3y_2-x_2y_3). $$ Para limitar la probabilidad de que las sumas sean $1$, tomamos $x_3=1-x_1-x_2$$y_3=1-y_1-y_2$. Así $$ P(x,y)=9\left(x_1(1-y_1-y_2)-(1-x_1-x_2)y_1\right)+3(x_2y_1-x_1y_2)+5\left((1-x_1-x_2)y_2-x_2(1-y_1-y_2)\right) \\ =9(x_1-y_1)+ 17(x_2 y_1 -x_1y_2) + 5(y_2-x_2). $$ Las primeras derivadas son cero cuando $$ \frac{\partial}{\partial x_1}P(x,y)= 9 -17y_2=0 \\ \frac{\partial}{\partial x_2}P(x,y)= 17y_1 -5=0 \\ \frac{\partial}{\partial y_1}P(x,y)=-9+17x_2 = 0\\ \frac{\partial}{\partial y_2}P(x,y)=-17x_1+5=0, $$ o en $(x1,x2,x_3)=(y_1,y_2,y_3)=(5/17, 9/17, 3/17)$. El equilibrio de Nash es jugar para vencer a cada movimiento con probabilidad proporcional al movimiento de la recompensa.

Para comprobar que esto es un equilibrio de Nash, supongamos $y_1=5/17$$y_2=9/17$. Entonces $$ P(x)=9(x_1-5/17)+17\left(x_2 (5/17)-x_1 (9/17)\right)-5(x_2-9/17)=0; $$ es decir, el primer jugador del beneficio esperado es cero con cualquier estrategia. Así que el primer jugador puede mejorar su rentabilidad mediante el cambio de su estrategia de forma unilateral, y por simetría, ni el segundo jugador; esta es la definición de un equilibrio de Nash.

4voto

Incnis Mrsi Puntos 487

Esta tabla resume los resultados posibles en este juego de una vez: $$ \begin{array}{c|c|c|c|c} \text{Hero Plays} & \text{Villain Plays} & \text{Hero's Earnings} \\ \hline R & R & +\$0 \\ R & P & -\$3 \\ R & S & +\$9 \\ P & R & +\$3 \\ P & P & +\$0 \\ P & S & -\$5 \\ S & R & -\$9 \\ S & P & +\$5 \\ S & S & +\$0 \end{array} $$ Suponga que todos los resultados son igualmente probables. Dejando $X$ ser nuestras ganancias se pueden calcular nuestros ingresos esperados dado que la elección la hacemos \begin{align*} \Bbb E(X|R) &= \frac{1}{3}\cdot (\%#%#%3)+\frac{1}{3}\cdot(\$9) \\ &= -\%#%#%3 \\ &= \$2 \\ \Bbb E(X|P) &= \frac{1}{3}\cdot (\%#%#%0)+\frac{1}{3}\cdot(-\$5) \\ &= \%#%#%\frac{5}{3} \\ &= -\$\frac{2}{3} \\ \Bbb E(X|S) &= \frac{1}{3}\cdot (-\%#%#%5)+\frac{1}{3}\cdot(\$0) \\ &= -\%#%#%\frac{5}{3} \\ &= -\$\frac{4}{3} \\ \end{align*} De acuerdo a estos cálculos, la única estrategia ganadora es tocar rock en cuyo caso el valor esperado es $0)+\frac{1}{3}\cdot (-\$2$.

Nota: lo anterior presupone que El héroe hace una elección contra un villano que es jugar al azar.

Edit: se me pasó la "Nash-Equilibrio" de la etiqueta cuando leí por primera vez esta pregunta. Probablemente usted está buscando algo un poco más sofisticado que este! Voy a mantener la respuesta publicada en el caso de los demás a encontrar estos cálculos útiles.

3voto

Andy Jacobs Puntos 4003

Si "óptima" significa equilibrio de Nash (es decir, un estado que es estable wrt. pequeñas perturbaciones de estrategias), que puede ser calculada. Si usted asume que $x_1$ es la probabilidad de que el primer jugador para jugar Rock, $x_2$ su probabilidad de jugar Tijeras y $1-x_1-x_2$ su probabilidad de jugar el Papel, y lo mismo para $y_i$, entonces la Rentabilidad del primer jugador es $$f(x_1, x_2, y_1, y_2) = x_1 (9y_2 - 3 (1-y_2-y_3)) + x_2 (-9 y_1 + 5(1-y_2-y_3)) + (1-x_1-x_2)(3y_1-5y_2)$$ o algo como eso. La condición de Nash es que todas las derivadas parciales se desvanecen; probablemente, usted puede fácilmente calcular las probabilidades y comprobar, si adivinas el derecho de soluciones (la solución debe ser único en este caso con $x_i$ $y_i$ distinto de cero).

Sin embargo, en circunstancias diferentes, óptima puede meen cosas diferentes; si ellos son buenos amigos y saber que es un juego de suma cero, sino que también puede jugar tanto de Rock de todos los tiempo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X