Se lanza una moneda al aire $n$ veces y ganas si sale cara al menos $k$ tiempos. La moneda es inusual en el sentido de que se le permite elegir la probabilidad $p_i$ que sale de cabeza en el $i$ de la vuelta, con la única restricción de que $\sum_i p_i \le b$ , donde $b$ es un "presupuesto" predeterminado que tienes. Además, se le permite esperar hasta que haya visto los resultados de la primera $i-1$ antes de elegir el valor de $p_i$ . Dado $n$ , $k$ y $b$ ¿Cuál es su estrategia óptima y cuál es su probabilidad de ganar?
Una forma vistosa de plantear el problema es que si eres un equipo deportivo al que se le encomienda ganar una competición al mejor de $n$ serie y tienes recursos limitados (por ejemplo, un bullpen limitado para las Series Mundiales de béisbol de las grandes ligas), ¿cómo debes presupuestarlos?
Naturalmente, si $b\ge k$ , puede simplemente elegir $p_i=1$ para $k$ de la $n$ y ganan con probabilidad 1. Así que la pregunta es interesante sólo si $b\lt k$ .
He hecho circular este problema de manera informal entre los colegas, que han obtenido resultados parciales diversos pero no una solución completa. Ocuparía demasiado espacio resumir todos los resultados parciales, pero permítanme mencionar algunos de los más destacados.
-
Incluso el "caso no adaptativo", en el que se no permite ver los resultados de sus volteos antes de elegir $p_i$ no es trivial. La mejor estrategia es dividir el presupuesto de manera uniforme entre $r$ voltea para algunos $r$ pero el valor exacto de $r$ es más complicado de lo que se cree. Para un determinado $r$ la probabilidad de $k$ éxitos es $$\sum_{m=k}^r {r \choose m} \left({b\over r}\right)^m\left(1-{b\over r}\right)^{r-m}.$$ De esto se desprende que si $b\lt k-1$ entonces debemos elegir $r=n$ y si $k-1 \le b \lt k$ entonces $r\approx (k-1)/3(b-k+1)$ pero sólo tenemos una prueba en casos especiales.
-
En el problema real planteado, dejemos que $d=k-b$ El déficit . Entonces, al menos en el caso de déficit pequeño, la mejor estrategia general que tenemos hasta ahora es hacer un lanzamiento de moneda inicial con probabilidad $1-\lbrace d\rbrace$ (donde $\lbrace d\rbrace$ denota la parte fraccionaria de $d$ ), y luego tomar $p_i=1/2$ hasta que nos encontremos en una situación en la que podamos "cerrar" la victoria tomando las $p_i=1$ . (Es posible analizar esta estrategia cuantitativamente, pero omitiré los detalles aquí). En particular, se puede demostrar que las estrategias adaptativas superan significativamente a las estrategias no adaptativas.
-
Si $b$ es pequeño, entonces se puede demostrar que la mejor estrategia no adaptativa está dentro de un factor constante del óptimo. Por ejemplo, si $b\le 1$ entonces se puede demostrar que la probabilidad global de ganar $p$ satisface $${1\over 4}{n\choose k}\left({b\over n}\right)^k \le p \le {n\choose k}\left({b\over n}\right)^k.$$ El límite superior es realmente cierto para todos los $b$ y el límite inferior puede derivarse de la mejor estrategia no adaptativa.