10 votos

Rodar un dado infinito veces pero pagar $ 1 para jugar - estrategia?

Estoy atascado con una pregunta relacionada con la estrategia óptima de rodar un dado. Es una extensión del problema "Lanzar un dado y tomar la cantidad en los dados o re-roll (un máximo de dos veces)". Aquí está el enlace a la versión básica y la solución: El beneficio esperado de un juego de dados

Así que la idea es rodar una de las 6 caras de los dados, y usted puede tomar el dinero que aparece en los dados, O pagar \$$1$ y jugar de nuevo. Ahora puede volver a rodar tantas veces como quieras. ¿Cuál es la estrategia óptima y cuál es el valor justo de el juego?

He intentado utilizar el mismo enfoque de trabajo hacia atrás como el basic caso anterior, pero después de unas pocas iteraciones, parece ser que no termina nunca. Esto no tiene sentido intuitivamente, porque después de 6 rollos, que ha gastado \$$6$ para jugar y sólo puede ganar un máximo de \$$6$ en su próximo lanzamiento, por lo que nunca sería óptimo para rodar más de 6 veces!

14voto

Moncader Puntos 2156

Esta respuesta es más de lo que necesita ser porque yo quería hacer un argumento general. Esto funcionará para cualquier colindado muere. Yo podría haber generalizado un poco más en términos de cuánto usted tiene que pagar a rodar de nuevo, pero me dio pereza. Siéntase libre de hacer preguntas aclaratorias!

En cada punto en el juego, su estrategia debe ser, independientemente de su anterior rollos. Para ver por qué esto es, pensar en ello como esto. Lo que obtuviste anteriormente no tiene ningún efecto sobre ti ahora mismo. Es decir, no importa lo mucho que han perdido o ganado, si este rollo actual está a punto de hacer es rentable, usted debe hacer si usted tiene ya ganado un millón de dólares o perdido un millón de millones, porque en este momento actual en el tiempo, es absolutamente rentable. Sus ganancias pasadas no juegan ningún rollo en la decisión.

Nuestra estrategia será la de elegir una cantidad límite por encima del cual vamos a aceptar las ganancias y parada. Para este punto de corte, vamos a desarrollar un método para calcular la espera y maximizar las ganancias.

Deje $n$ el número de lados en los dados y $k$ ser el punto de corte. Vamos a calcular el valor esperado de esta estrategia ($S_k$) como:

$$ E[S_k] = p(x \geq k)\cdot E[ x\vert x \geq k] + (1-p(x\geq k))\cdot \left(E[S_k]-1\right) $$

Es decir, hemos convenido, si nuestro rollo es mayor que la frecuencia de corte vamos a parar y si es menos vamos a rodar de nuevo. Por tanto, si nuestro rollo es mayor que $k$ (lo que ocurrirá con $p(x \geq k)$), a continuación, calculamos el valor esperado de los valores de $x \geq k$ y multiplicarlo por la probabilidad. Sin embargo, si nuestro rollo es menor que la frecuencia de corte, entonces estamos de vuelta donde empezamos a excepción de que hemos perdido a un dólar por lo que el valor esperado es $E[S_k] - 1$.

Reordenando la ecuación nos da:

$$ \begin{align} E[S_k] &= p(x \geq k)\cdot E[ x\vert x \geq k] + (1-p(x\geq k))\cdot \left(E[S_k]-1\right) \\ E[S_k]\cdot p(x\geq k) &= p(x \geq k)\cdot E[ x\vert x \geq k] - (1-p(x\geq k)) \\ E[S_k] &= \frac{p(x \geq k)\cdot (1 + E[ x \vert x \geq k]) - 1}{p(x\geq k)} \\ E[S_k] &= 1 + E[ x \vert x \geq k] - \frac{1}{p(x\geq k)} \\ \end{align} $$

Permítanos calcular el $p(x \geq k)$$E[x \vert \geq k]$. Hay $n-k+1$ rollos mayor o igual a $k$ y desde allí se $n$ posible rollos, obtenemos:

$$ p(x \geq k) = \frac{n + 1 - k}{n} $$

Como para $E[x \vert x \geq k]$, los números de $k, k+1, \ldots n$ son todos mayores o iguales a $k$ y ocurren con igual probabilidad. Por lo que el valor esperado de estos es justo allí promedio de decir:

$$ E[x \vert x \geq k] = \frac{n + k}{2} $$

La combinación de estos, finalmente se obtiene:

$$ E[S_k] = 1 + \frac{n + k}{2} - \frac{n}{n + 1 - k} \\ $$

Lo que queremos es maximizar esta función. Podemos hacer esto fácilmente mediante el cálculo de cuando la derivada es $0$:

$$ \frac{\partial}{\partial k} E[S_k] = \frac{1}{2} - \frac{n}{(n + 1 - k)^2} \\ $$

y así, se calcula cuando este es $0$:

$$ \begin{align} (n + 1 - k)^2 - 2n &= 0\\ k^2 + k(-2 n - 2) + n^2 + 1 &= 0 \\ k &= \frac{2n + 2 \pm \sqrt{(2n+2)^2 - 4(n^2 + 1)}}{2} \\ k &= n + 1 \pm \sqrt{2n} \\ k &= n + 1 - \sqrt{2n} \end{align} $$

Así, el uso de los valores para $n = 6$, su respuesta final es $k = 3.53$ tan pronto como usted hace rodar por encima de $3$ en el juego, usted debe parar :)

Addendum:

Sólo para la integridad, la versión más general, donde usted tiene que pagar el $p$ dólares para rodar de nuevo está dado por:

Óptimo de corte: $$ k = n + 1 - \sqrt{2np} $$

En caso de que usted quisiera algunas pruebas, aquí están los gráficos de la media de dinero que se gana después de parar tan pronto como un rollo de $x$ o más es visto.

$n = 6$. Nota cómo el valor óptimo es al $x = 3$ o $x = 4$ son los puntos de corte:

enter image description here

$n = 50$. Nota cómo max se a $51 - \sqrt{100} = 41$, exactamente como la fórmula predice:

enter image description here

5voto

quasi Puntos 236

Sea$v_k$ el valor del juego si acepta un rollo de$k$ o más, vuelva a rodar de lo contrario. Entonces

$$ \begin{align} v_1&=(1/6)(1 + 2 + 3 + 4 + 5 + 6) &\Rightarrow \qquad v_1 &= 7/2 < 4 \\ v_2&=(1/6)(v_2-1)+(1/6)(2 + 3 + 4 + 5 + 6) &\Rightarrow \qquad v_2 &= 19/6 < 4 \\ v_3&=(2/6)(v_3-1)+(1/6)(3 + 4 + 5 + 6) &\Rightarrow \qquad v_3 &= 4 \\ v_4&=(3/6)(v_4-1)+(1/6)(4 + 5 + 6) &\Rightarrow \qquad v_4 &= 4 \\ v_5&=(4/6)(v_5-1)+(1/6)(5 + 6) &\Rightarrow \qquad v_5 &= 7/2 < 4 \\ v_6&=(5/6)(v_6-1)+(1/6)(6) &\Rightarrow \qquad v_6 &= 1 < 4 \\ \end {align} $$

Por lo tanto, hay dos estrategias igualmente óptimas:

  1. Acepte en 3 o más, vuelva a rodar en 2 o menos.
  2. Acepte en 4 o más, vuelva a rodar en 3 o menos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X