Dos jugadores juegan al siguiente juego de cartas con una baraja compuesta por (A,2,3,4,5).
- Un tercero pone un dólar en el bote y el jugador 1 recibe una carta. Si es un A, tiene una carta ganadora, de lo contrario tiene una carta perdedora.
- El jugador 1 puede decidir si se retira (concediendo el dólar al jugador 2) o apuesta, poniendo un dólar más en el bote.
- Si el jugador 1 apuesta, el jugador 2 puede decidir retirarse (concediendo el bote al jugador 1) o igualar, poniendo un dólar más en el bote.
- Si el jugador 2 pide, el jugador 1 revela su carta - si es un A, se lleva el bote, de lo contrario el jugador 2 se lleva el bote.
No es difícil ver que hay un equilibrio de Nash en el que el jugador 1 siempre apuesta si tiene un as, y hace un farol el 12,5% de las veces si no lo tiene. El jugador 2 iguala el 50% de las apuestas del jugador 1. La expectativa a largo plazo es \$0.30/round for player 1, and \$ 0,70/ronda para el jugador 2.
Sin embargo, en la realidad es poco probable que ambos jugadores jueguen la estrategia de equilibrio de Nash (pueden no ser racionales, pueden no creer que el otro jugador sea racional, pueden estar jugando sólo por diversión, etc.).
Desde la perspectiva del jugador 1, si el jugador 2 pide una fracción $p$ de las veces, entonces el jugador 1 siempre debería hacer un farol si $p<0.5$ y nunca se farolea si $p>0.5$ con el fin de maximizar su propia expectativa. Es decir, la frecuencia óptima de los faroles es
$$B(p) = \begin{cases} 1 && p < 0.5 \\ 0 && p > 0.5\end{cases}$$
Ahora, el jugador 1 podría tener una distribución de probabilidad $f(p)$ en la frecuencia de llamada del jugador 2. En ese caso, parece lógico que la frecuencia de faroles del jugador 1 sea la media ponderada por la probabilidad de la acción óptima para cada $p$ -
$$p_{\rm Bluff} = \int_0^1 {B}(p) f(p) dp = \int_0^{0.5} f(p) dp \tag{1}$$
Pero eso lleva a la conclusión de que si el jugador 1 tiene una previa no informativa $f(p)=1$ Debería farolear con frecuencia $p_{\rm Bluff} = 0.5$ . Eso contrasta con mi intuición de que si no tienes información sobre la estrategia del jugador 2, debes jugar la estrategia de equilibrio de Nash.
Me preocupa que la ecuación (1) no mencione en absoluto la estrategia de equilibrio de Nash - parece que debería jugar un papel, lo que me hace pensar que (1) no puede ser correcta.
¿Cuál es? ¿Tiene la teoría del juego algo que decir sobre la situación en la que un jugador puede no jugar de forma óptima, pero no se sabe exactamente cómo juega? ¿Existe una forma de deducir la jugada "correcta" si se tiene una distribución de probabilidad de la estrategia del adversario?