4 votos

Teoría de los juegos/enfoque bayesiano de un juego de faroles

Dos jugadores juegan al siguiente juego de cartas con una baraja compuesta por (A,2,3,4,5).

  • Un tercero pone un dólar en el bote y el jugador 1 recibe una carta. Si es un A, tiene una carta ganadora, de lo contrario tiene una carta perdedora.
  • El jugador 1 puede decidir si se retira (concediendo el dólar al jugador 2) o apuesta, poniendo un dólar más en el bote.
  • Si el jugador 1 apuesta, el jugador 2 puede decidir retirarse (concediendo el bote al jugador 1) o igualar, poniendo un dólar más en el bote.
  • Si el jugador 2 pide, el jugador 1 revela su carta - si es un A, se lleva el bote, de lo contrario el jugador 2 se lleva el bote.

No es difícil ver que hay un equilibrio de Nash en el que el jugador 1 siempre apuesta si tiene un as, y hace un farol el 12,5% de las veces si no lo tiene. El jugador 2 iguala el 50% de las apuestas del jugador 1. La expectativa a largo plazo es \$0.30/round for player 1, and \$ 0,70/ronda para el jugador 2.

Sin embargo, en la realidad es poco probable que ambos jugadores jueguen la estrategia de equilibrio de Nash (pueden no ser racionales, pueden no creer que el otro jugador sea racional, pueden estar jugando sólo por diversión, etc.).

Desde la perspectiva del jugador 1, si el jugador 2 pide una fracción $p$ de las veces, entonces el jugador 1 siempre debería hacer un farol si $p<0.5$ y nunca se farolea si $p>0.5$ con el fin de maximizar su propia expectativa. Es decir, la frecuencia óptima de los faroles es

$$B(p) = \begin{cases} 1 && p < 0.5 \\ 0 && p > 0.5\end{cases}$$

Ahora, el jugador 1 podría tener una distribución de probabilidad $f(p)$ en la frecuencia de llamada del jugador 2. En ese caso, parece lógico que la frecuencia de faroles del jugador 1 sea la media ponderada por la probabilidad de la acción óptima para cada $p$ -

$$p_{\rm Bluff} = \int_0^1 {B}(p) f(p) dp = \int_0^{0.5} f(p) dp \tag{1}$$

Pero eso lleva a la conclusión de que si el jugador 1 tiene una previa no informativa $f(p)=1$ Debería farolear con frecuencia $p_{\rm Bluff} = 0.5$ . Eso contrasta con mi intuición de que si no tienes información sobre la estrategia del jugador 2, debes jugar la estrategia de equilibrio de Nash.

Me preocupa que la ecuación (1) no mencione en absoluto la estrategia de equilibrio de Nash - parece que debería jugar un papel, lo que me hace pensar que (1) no puede ser correcta.

¿Cuál es? ¿Tiene la teoría del juego algo que decir sobre la situación en la que un jugador puede no jugar de forma óptima, pero no se sabe exactamente cómo juega? ¿Existe una forma de deducir la jugada "correcta" si se tiene una distribución de probabilidad de la estrategia del adversario?

1voto

Stef Puntos 17114

Aunque lo pongo como respuesta, es más bien una opinión (demasiado grande para que quepa en los comentarios).

Su pregunta se refiere a un campo llamado " Teoría de los juegos epistémicos " que se concentra principalmente en la modelización de las creencias de los jugadores. Epistémico significa todo lo que tiene que ver con las creencias de los jugadores sobre las estrategias de otros jugadores, sus conocimientos, sus creencias sobre las creencias de otros, etc. Entre otros muchos, hay resultados que demuestran bajo qué condiciones las creencias de los jugadores (vistas como estrategias mixtas de los otros jugadores) forman un Equilibrio de Nash.

En su ejemplo, el previo uniformativo que emplea, puede interpretarse como una estrategia del jugador 2 (a los ojos del jugador 1). El jugador 1, asume que está jugando contra la distribución uniforme. Es decir, cree que el jugador 2 está eligiendo completamente al azar su frecuencia de llamada $p$ . Creyendo que, su estrategia óptima (contra la supuesta estrategia del Jugador 2) es efectivamente la que usted encontró, es decir, farolear $50%$ del tiempo.

No estoy de acuerdo con la intuición de que cuando no se sabe lo que hará el otro (es decir, a priori uniforme) se debe jugar al Equilibrio de Nash. Por el contrario, el Equilibrio de Nash supone sólo un comportamiento racional y uno debe jugarlo, si cree que los otros jugadores son racionales, si cree que los otros jugadores creen que él es racional, si... es decir, si hay conocimiento común de la racionalidad . De hecho, hay ciertos funciona que estipulan las condiciones epistémicas exactas bajo las cuales se jugará el Equilibrio de Nash (que en varios casos son más débiles que el mencionado conocimiento común de la racionalidad).

Por último, se discute la selección de la distribución a priori. El consenso es que se debe utilizar una priorización común (es decir, una priorización en la que todos los jugadores estén de acuerdo), ya que, aunque en un principio sea contraintuitivo, la priorización común conduce al modelo que produce los resultados más aplicables y útiles. Es lo que se denomina suposición previa común. Prácticamente excluye los casos en los que un jugador tiene creencias arbitrarias (no apoyadas por nada) y juega contra ellas (viéndolas como estrategias de los demás). La suposición a priori común establece brevemente que en algún momento del pasado todos estuvimos de acuerdo sobre cuáles serían los posibles resultados (y su probabilidad) y que después cualquier cambio en nuestras creencias se debe a información privada, acumulación de conocimientos, etc. (Esto, por supuesto, no va en contra del prior uniforme que has utilizado).

Así que, en resumen, aunque el problema que abordas es muy interesante, no sé si tiene una respuesta directa. No hay ningún error (a partir de una mirada superficial) en tus cálculos, pero aún así el comportamiento subóptimo y las creencias están definidas de forma tan arbitraria que permiten muchos enfoques diferentes. (Por supuesto, lo anterior expresa una opinión y seguro que puede haber respuestas más inteligentes y correctas a tu pregunta).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X