En general, cuando te enfrentas al problema de encontrar un equilibrio de Nash mixto en un juego de 2 jugadores, debes utilizar el funciones de respuesta óptima (BRF). Con los BRF se pueden resolver tanto los juegos de mesa finitos como los continuos.
Dejemos que $S_1$ y $S_2$ son los conjuntos de estrategias para el jugador 1 y 2 respectivamente, y sea $x_1 \in S_1$ y $x_2 \in S_2$ las estrategias jugadas por cada jugador. Las funciones de pago son $f_1(x_1, x_2)$ para el jugador 1 y $f_2(x_1,x_2)$ para el jugador 2.
El BRF del jugador 1 $\beta_1(x_2)$ es una "función" que devuelve la(s) mejor(es) estrategia(s) que el jugador 1 debe elegir cuando el jugador 2 juega una estrategia determinada $x_2$ . Es una "función" ya que para cada $x_2$ puede haber más de una estrategia mejor para el jugador 1. Es más correcto decir que $\beta_1(x_2)$ es un conjunto. La misma construcción se utiliza para $\beta_2(x_1)$ . En concreto tenemos lo siguiente:
$$ \beta_1(x_2) = \{ x_1 \in S_1 : f_1(x_1,x_2) \geq f_1(y, x_2) ~ \forall y \in S_1\}$$ $$ \beta_2(x_1) = \{ x_2 \in S_2 : f_2(x_1,x_2) \geq f_2(x_1, z) ~ \forall z \in S_2\}$$
Una vez construidos los BRF, hay que resolver el siguiente sistema:
$$ \left\{ \begin{array}{l} x_1^* \in \beta_1(x_2^*) \\ x_2^* \in \beta_2(x_1^*) \end{array}\right.$$
Todas las soluciones $(x_1^*, x_2^*)$ son equilibrios de Nash. Pueden ser mixtos o puros.
Ejemplo con estrategias continuas
Un ejemplo clásico es el duopolio de Cournout. Dos empresas producen el mismo bien y actúan en el mismo mercado. Deben decidir las cantidades $x_1$ y $x_2$ del bien que tienen que producir. Las cantidades producidas no deben ser mayores que la demanda $D$ . Tenemos que $S_1 = S_2 = [0, D]$ .
Las empresas son diferentes en el sentido de que tienen diferentes costes de producción (digamos $c_1$ y $c_2$ son el coste unitario para la empresa 1 y la empresa 2 respectivamente). Las funciones de pago son:
$$f_1(x_1,x_2) = k(D - x_1 - x_2)x_1 - c_1x_1$$ $$f_2(x_1,x_2) = k(D - x_1 - x_2)x_2 - c_2x_1$$
donde $k$ es una constante positiva.
La forma de evaluar el BRF consiste en maximizar las funciones de pago con respecto a la estrategia propia cuando la estrategia del adversario es fija. Utilizamos la derivada para maximizar (nótese que, como $k>0$ entonces cada función de pago tiene segunda derivada negativa y esto garantiza que el punto estacionario es un máximo local):
$$\frac{\partial f_1}{\partial x_1} = k(D - x_2) - 2kx_1 - c_1$$ $$\frac{\partial f_2}{\partial x_2} = k(D - x_1) - 2kx_2 - c_2$$
y los igualamos a 0 para encontrar el máximo:
$$ \left\{ \begin{array}{l} \frac{\partial f_1}{\partial x_1} = 0 \Rightarrow x_1 = \frac{k(D-x_2)-c_1}{2k} = \beta_1(x_2) \\ \frac{\partial f_2}{\partial x_2} = 0 \Rightarrow x_2 = \frac{k(D-x_1)-c_2}{2k} = \beta_2(x_1) \end{array}\right.$$
Las últimas ecuaciones de la derecha se mantienen ya que, para cada $x_2$ ( $x_1$ ) fijada podemos encontrar la mejor $x_1$ ( $x_2$ ) que la empresa 1 (2) puede adoptar. Cabe destacar que en este caso las BRF son funciones reales, ya que existe una correspondencia 1 a 1 entre una estrategia del adversario y la mejor respuesta a la misma.
En este punto, podemos resolver el sistema:
$$ \left\{ \begin{array}{l} x_1* = \beta_1(x_2^*) \Rightarrow x_1^* = \frac{kD-2c_1+c_2}{3k} \\ x_2* = \beta_2(x_1^*) \Rightarrow x_2^* = \frac{kD-2c_2+c_1}{3k} \end{array}\right.$$
y se obtiene el equilibrio de Nash.
Sobre el uso del BRF con juegos de mesa finitos
Cuando estás en este caso, tienes $2$ matriz de pagos, digamos $A, B \in \mathbb{R}^{2 \times 2}$ . A partir de ellas puedes construir tus funciones de pago:
$$f_1(x_1,x_2) = [x_1 ~(1-x_1)]~A~[x_2 ~(1-x_2)]^T$$ $$f_2(x_1,x_2) = [x_1 ~(1-x_1)]~B~[x_2 ~(1-x_2)]^T$$
En este punto, se actúa como en el ejemplo anterior. Tenga en cuenta que $S_1 = S_2 = [0, 1]$ en lugar de $\{0, 1\}$ porque hay que extender a una situación continua si se quiere encontrar los equilibrios mixtos.
En este caso, al utilizar el BRF, encontrará (si existe al menos uno) equilibrios de Nash mixtos. Algunas veces también encontrará equilibrios puros, pero en general hay que restringir la maximización en la frontera del conjunto $\Delta = \{ (x_1, x_2) : x_1, x_2 \in [0, 1] \wedge x_1+x_2 = 1\}$ .