4 votos

Un interesante dos jugadores ' juego con suma acumulativa de una distribución uniforme

$A$ $B$ son dos jugadores, cada uno tiene exactamente una vez. $A$ va primero. $A$ mantiene en la elección de un número aleatorio uniformemente distribuido sobre $(0,1)$ y sumar los valores. Si en un punto se supera $1$, $A$ se pierde. Si $A$ piensa que su suma acumulativa está muy cerca de a $1$, por lo tanto hay un riesgo de perder, él se detiene. A continuación, $B$ inicia el mismo proceso y agregar los valores por separado. Si en un punto de $B$ supera $A$'s de la suma y aún por debajo de la $1$, gana. ¿Cuál es la estrategia óptima para $A$ a detener la adición y ¿cuál es la probabilidad de ganar en ese caso ($B$ conoce el valor de $A$ detenido a)?

A partir de la simulación parece que el umbral óptimo de $A$'s de la suma acumulada es de aproximadamente $0.5772$, que es muy cercana a la de Euler-Mascheroni constante $\gamma$.

5voto

mge Puntos 484

Ampliando el comentario de @Ross: Trabajando hacia atrás, supongamos $A$ detenido en $a$, $B$ actualmente está en la $b<a$, y denotan $B$'s posibilidades de ganar por $p_a(b)$. La estrategia de $B$ es trivial: mientras que por debajo de la $a$, tiene que rodar de nuevo y, a continuación, se puede llegar a un nivel de $b'<a$, se sitúan entre $a$ $1$ (y ganar), o exceder $1$ (y perder). Por lo tanto, $p_a(b)$ satisface $$ p_a(b)=\int_b^ap_a(b')db'+(1-a), $$ o, $$ \partial_bp_a(b)=-p_a(b),\quad \lim_{b\rightarrow a}p_a(b)=1-a. $$ La solución de esto es dado por $p_b(a)=(1-a)e^{a-b}$, en particular si $B$ toma el valor de $a$ a partir de $A$, $B$'s probabilidad de ganar es $(1-a)e^a$.

Ahora supongamos $A$ se encuentra actualmente en$a$, y ha de decidir si continuar, denotan su oportunidad de ganar con estrategia óptima es $q(a)$. Si se detiene, su oportunidad de ganar, si al parar la es $1-(1-a)e^a$. Si sigue pasando, su probabilidad de ganar es $\int_a^1q(a')da'$. Por lo tanto $$ p(a)=\max\{1-(1-a)e^a,\int_a^1t(a')da'\} $$ El primer término es estrictamente creciente, la segunda es estrictamente decreciente, por lo que hay un único punto de inflexión $a_0$, que es el umbral para $A$ : $$ 1-(1-a_0)e^{a_0}=\int_{a_0}^11-(1-a')e^{'} da'=(2-a_0)e^{a_0}-a_0-e+1, $$ o, $$ (3-2a_0)e^{a_0}-a_0-e=0. $$ Yo no puedo resolver esto, pero enchufar $\gamma$ da $\sim-0.0084$. La real solución numérica de WolframAlpha es $\sim0.570557$.

Edit: Solo como curiosidad, también se obtiene el total de la ganancia de la oportunidad de $A$, $q(0)=e^{a_0}q(a_0)\sim0.425$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X