5 votos

Un juego de lanzamiento de monedas con probabilidades aleatorias

Dejemos que $p$ una variable aleatoria, uniformemente distribuida en $[0,1]$ . Dos jugadores $A$ et $B$ jugar al siguiente juego:

A partir de A, un jugador obtiene un valor aleatorio $p(\omega)\in[0,1]$ y tiene dos opciones:

i) Puede lanzar una moneda, con una probabilidad $p(\omega)$ de una cabeza. Si consigue una cabeza gana la partida, de lo contrario el otro jugador jugará con la misma distribución $p$ .

ii) Puede pasar el turno al otro jugador, pero dándole una distribución penalizada, es decir $p$ se sustituye, para ese turno, por una distribución uniforme sobre $[0,1-p(\omega)]$

Supongamos que ambos jugadores juegan de forma óptima, es decir, que eligen entre (i) y (ii) la que da la mayor probabilidad de ganar.

¿Cuál es la probabilidad de que gane el primer jugador?

EDIT: voy a intentar aclarar cómo se juega. En cada turno, el jugador actual obtiene una probabilidad aleatoria $p$ de la siguiente manera: si en el turno anterior su adversario ha lanzado la moneda (sin obtener cara, en cuyo caso el juego terminó), toma $p$ uniformemente en $[0,1]$ . Si su adversario no ha lanzado la moneda, toma $p$ uniformemente en $[0,1-\tilde{p}]$ , donde $\tilde{p}$ es la probabilidad con la que juega su adversario durante el turno anterior. Ahora el jugador actual puede elegir si lanzar la moneda (con una probabilidad de ganar $p$ ), o para pasar el turno.

0 votos

1) $p$ es fijo y conocido? 2) ¿qué has probado?

0 votos

Como sugieren los comentarios anteriores, las reglas de este juego no están nada claras. Es $p(\omega)$ ¿se arregló para todo el juego? Si no es así, ¿cuándo cambia? A primera vista, parece que B no tiene que tomar ninguna decisión estratégica. ¿Es eso cierto? Si no lo es, ¿cuándo tiene B la posibilidad de elegir?

0 votos

He editado mi pregunta. Espero que ahora las reglas sean mucho más claras.

4voto

JiminyCricket Puntos 143

La estrategia óptima es lanzar siempre la moneda.

En primer lugar, supongamos que el primer jugador siempre lanza la moneda. Entonces el segundo jugador siempre saca $p$ de $[0,1]$ y tiene dos opciones. Si se da la vuelta, su probabilidad de ganar es $p+\frac12(1-p)E$ , donde $E$ es su probabilidad de victoria promediada sobre $p\in[0,1]$ el primer término representa que ella gana inmediatamente, y el segundo término representa que ella gana después de que el primer jugador se voltea y falla. Si pasa, su probabilidad de ganar es $(1-\frac12(1-p))E$ la probabilidad de que gane después de que el primer jugador lance y falle. La diferencia es $p+\frac12(1-p)E-(1-\frac12(1-p))E=p(1-E)\ge0$ . Por lo tanto, si el primer jugador siempre tira, es óptimo que el segundo jugador siempre tire.

De ello se desprende que la probabilidad de ganar del primer jugador cuando ambos jugadores siempre dan la vuelta es un límite inferior para la probabilidad óptima de ganar del primer jugador. Si el primer jugador saca $p$ su probabilidad de ganar si ambos jugadores siempre dan la vuelta es $p+\frac12(1-p)E$ (donde $E$ es de nuevo su probabilidad de victoria promediada sobre $[0,1]$ ), e integrando sobre $[0,1]$ rinde $E=\frac12+\frac12(1-\frac12)E$ Así que $E=2/3$ . Por lo tanto, si ambos jugadores siempre dan la vuelta, la probabilidad de ganar del primer jugador, habiendo sacado $p$ es $p+\frac12(1-p)\frac23=\frac13+\frac23p$ . Por lo tanto, la probabilidad óptima de ganar $E_p$ después de haber dibujado $p$ satisface $\frac13+\frac23p\le E_p\le1$ .

Ahora podemos utilizar este límite para demostrar que, de hecho, es óptimo voltear siempre. Habiendo extraído $p$ un jugador puede voltear para obtener una probabilidad de ganar

$$ 1-(1-p)\int_0^1E_s\,\mathrm ds $$

o pasar para obtener una probabilidad de ganar

$$ 1-\frac1{1-p}\int_0^{1-p}E_s\,\mathrm ds\;. $$

La diferencia es

\begin{align} &-(1-p)\int_0^1E_s\,\mathrm ds+\frac1{1-p}\int_0^{1-p}E_s\,\mathrm ds\\ ={}&\left(\frac1{1-p}-(1-p)\right)\int_0^{1-p}E_s\,\mathrm ds-(1-p)\int_{1-p}^1E_s\,\mathrm ds\\ \ge{}&\left(\frac1{1-p}-(1-p)\right)\int_0^{1-p}\left(\frac13+\frac23s\right)\,\mathrm ds-(1-p)\int_{1-p}^11\,\mathrm ds\\ ={}&\frac13\left(\frac1{1-p}-(1-p)\right)\left((1-p)+(1-p)^2\right)-p(1-p)\\ ={}&\frac13p\left(p^2-p+1\right)\\ \ge{}&0\;. \end{align}

0 votos

¿puede explicarme cómo se consigue $(1-(p-1)/2)E$ para la probabilidad de que el segundo jugador gane al pasar el turno, suponiendo que el primer jugador siempre da la vuelta?

0 votos

Si el segundo jugador pasa el turno, el primer jugador lanza una moneda con una probabilidad de cara tomada uniformemente en $[0,p]$ . Por lo tanto, su probabilidad de ganar debería ser $\int_0^pxdx=p^2/2$ . Así que el segundo jugador gana con probabilidad $(1-p^2/2)E$ . ¿Me estoy perdiendo algo?

0 votos

@Capublanca: Así es. La densidad al dibujar uniformemente desde $[0,p]$ es $\frac1p$ no $1$ . Por lo tanto, la probabilidad es $\frac1p\int_0^px\mathrm dx=p/2$ . O, más intuitivamente, como la densidad es uniforme, el valor esperado es el punto medio del intervalo, $p/2$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X