35 votos

Cuando deja de rodar un dado en un juego en el 6 lo pierde todo

Usted juega un juego usando un estándar de seis caras morir. Empiezas con 0 puntos. Antes de cada lanzamiento, usted decide si desea continuar con el juego o al final y mantener sus puntos. Después de cada tirada, si usted rodó 6, entonces se pierde todo y el juego termina. De lo contrario, añadir la puntuación de la matriz a su total de puntos y continuar/interrumpir el juego.

Cuándo se debe dejar de jugar a este juego? Obviamente, uno quiere maximizar la puntuación total.

Como me pidieron para mostrar mis resultados preliminares sobre esto, aquí están:

Si queremos simplificar el juego para llegar de 0 a 6 y 3 de otro modo, obtenemos los siguientes:

$$\begin{align} EV &= \frac{5}{6}3+\frac{25}{36}6+\frac{125}{216}9+\ldots\\[5pt] &= \sum_{n=1}^{\infty}\left(\frac{5}{6}\right)^n3n \end{align}$$

que es divergente, por lo que tendría sentido jugar para siempre, que hace de este similar a la paradoja de San Petersburgo. Sin embargo, puedo sentir que estoy equivocado en alguna parte!

50voto

Technophile Puntos 101

Antes de decidir si detener o rollo, supongamos que usted tiene un número entero no negativo número de puntos de $n$.

Cuántos más rollos debe hacer para maximizar la ganancia esperada por encima de la parada (cero)?

Supongamos que un mayor número de rollos es otro número entero no negativo $k$. Ahora, considere el $6^k$ posibles secuencias de $k$ rollos:

  • En $5^k$ de las secuencias no hay ninguna seis y ganar algunos puntos. La suma de $D_k$ sobre tales todas las secuencias de la suma de las tiradas de dados dentro de cada secuencia se satisface la relación de recurrencia $$D_0=0\quad D_{n+1}=5D_n+15\cdot5^n$$ Resulta que este tiene una forma cerrada: $$D_k=15k\cdot5^{k-1}=3k\cdot5^k$$
  • En el resto de $6^k-5^k$ secuencias de hay al menos un seis y perder el $n$ puntos que había de antemano.

Por lo que la ganancia esperada cuando ha $n$ puntos y tratar de rodar $k$ más de veces antes de detenerse es $$G(n,k)=\frac{D_k-n(6^k-5^k)}{6^k}=\frac{3k\cdot5^k-n(6^k-5^k)}{6^k}$$ Para una fija $n$, $k$ que maximiza $G(n,k)$$m(n)=\max(5-\lfloor n/3\rfloor,0)$; si $3\mid n$ $k=m(n)+1$ también las formas de un máximo.


Supongamos que fijar el número máximo de rollos antes de iniciar el juego. En $n=0$, $k=5$ y $k=6$ maximizar $G(n,k)$ y el resultado esperado con esta estrategia es $$G(0,5)=\frac{15625}{2592}=6.028163\dots$$ Pero, ¿y si el rollo de una vez y , a continuación, fijar el máximo de rollos después? Si nos rollo de 1 o 2, que rollo en más de 5 veces más; si 3, 4 o 5, 4 veces más. El resultado esperado aquí es mayor: $$\frac16(1+G(1,5)+2+G(2,5)+3+G(3,4)+4+G(4,4)+5+G(5,4))=6.068351\dots$$ Vamos a obtener una mayor puntuación esperada si hacemos rodar dos veces y, a continuación, establezca el límite de rollo. Esto implica que el codicioso estrategia, descritas a continuación, es óptimo:

Antes del inicio de cada nuevo lanzamiento, calcular el $m(n)$. Rollo de si este es positivo y se detendrá si este es cero.

Cuando $n\ge15$, $m(n)=0$. Un ingenuo cálculo que se formó la versión anterior de esta respuesta dice que rodar una vez que tiene cero ganancia esperada al $n=15$ y negativo de la ganancia esperada al $n>15$. En conjunto, estos sugieren que deberíamos dejar de si y cuando tenemos 15 o más puntos.

Encontrar una manera de calcular la puntuación esperada en virtud de este "stop-at-15" estrategia tomó un tiempo para mí para conceptualizar y, a continuación, programa, pero lo he conseguido en la final; el programa está aquí. El resultado esperado sería $$\frac{2893395172951}{470184984576}=6.1537379284\dots$$ Así que este es el máximo puntaje esperado que usted puede lograr.

30voto

Djura Marinkov Puntos 170

En la última ronda, usted puede conseguir $\frac{1+2+3+4+5}{6}$ o perder $p\frac 1 6$, siempre que el segundo es más que la primera que debe parar. Así que una vez que han marcado más de 15 que debe parar. Si usted puntuación de 15 no importa si continuar o parar.

25voto

chelmertz Puntos 8774

La cuestión es que falta el concepto de utilidad, una función que especifica cuánto el valor de cada resultado posible. En el juego, la utilidad de terminar el juego con una determinada puntuación sería el valor que tiene en ese resultado. Aunque ciertamente se podría argumentar que está implícito en la pregunta que la utilidad de un resultado es simplemente el resultado, me gustaría añadir una respuesta que tiene un no-trivial de utilidad en cuenta. Si cada punto traducido a 1000 USD, por ejemplo, usted podría tener una utilidad que se parece más a $U(x) = \log(x)$$U(x) = x$.

Digamos que $U(x)$ es la utilidad de la puntuación $x$ $x \ge 0$ y asumir que $U$ es monótona no decreciente. Entonces podríamos decir que la estrategia óptima es aquella que maximiza $E[U(X)]$ donde $X$ es una variable aleatoria que representa la puntuación final si uno juega con la política donde se tira el dado si y sólo si su puntuación es inferior a $t \in \mathbb{Z}_{\ge 0}$. (Es claro que la política óptima debe tener esta forma debido a que la utilidad es no decreciente.)

Deje $Z$ el valor actual de puntuación. Supongamos que estamos en un punto en el juego donde nuestra puntuación actual es $z \ge 0$. Entonces

$$E[U(X)|Z = z] = \frac{1}{6} \left( U(0) + \sum_{i=1}^5 E[U(X)|Z=z+i] \right) \text{ if } z < t$$

$$E[U(X)|Z = z] = U(z) \text{ if } z \ge t$$

Tenga en cuenta que para muchas opciones de $U(x)$ la relación de recurrencia es muy difícil para simplificar, y que, en el caso de escoger a tirar el dado, debemos considerar el cambio esperado en la utilidad de ese rollo y en el futuro todos los rollos. Las cifras a continuación son ejemplos de lo que los de arriba de la recurrencia de la relación da para$U(x) = x$$U(x) = \log_2(x + 1)$. La expresión $E[U(X)]$$E[U(X)|Z=0]$, debido a que en el inicio, hemos $0$ puntos. El eje horizontal corresponde a las diferentes políticas, y el eje vertical corresponde a la utilidad esperada en cada directiva.

enter image description here

Gist con el código de Python

6voto

Hurkyl Puntos 57397

Voy a abordar el problema de tratar de maximizar el promedio de puntuación de una estrategia, con la advertencia de que esto no es a menudo lo que realmente la atención acerca de cuándo jugar a los juegos actuales.

A menudo, el truco para las matemáticas es intentar expresar el resultado en forma algebraica en términos de simple (y esperemos que independiente!) variables aleatorias.

Esto se puede hacer aquí. Supongamos que usted seleccione la estrategia de algunos, y definir:

  • $P_n = 0$ si se detiene en una puntuación de $n$, e $P_n = 1$ si usted continuar.
  • $R_n = 1$ si el juego nunca llega a un estado donde su puntuación es exactamente $n$, e $R_n = 0$ lo contrario
  • $X_n$ es el cambio en la puntuación que se obtiene de un laminado de morir en la puntuación $n$

es decir, en ese último punto, $X_n$ ser $1, 2, 3, 4, 5,$ o $-n$, con igual probabilidad.

Entonces, su puntuación en el juego es

$$ S = \sum_{n=0}^{\infty} P_n R_n X_n $$

La característica más importante de la suma es que el $X_n$ son independientes de todas las demás variables aleatorias, y por lo tanto podemos expresar el resultado esperado, el uso de los dos hechos:

  • $\mathbb{E}(Y+Z) = \mathbb{E}(Y) + \mathbb{E}(Z)$
  • $\mathbb{E}(YZ) = \mathbb{E}(Y) \mathbb{E}(Z)$ si $Y$ $Z$ son independientes

para obtener

$$ \mathbb{E}(S) = \sum_{n=0}^{\infty} \mathbb{E}(P_n R_n) \mathbb{E}(X_n) $$

Desde $\mathbb{E}(X_n) = \frac{5}{2} - \frac{n}{6}$, tenemos

  • $\mathbb{E}(X_n) > 0$ si $n < 15$
  • $\mathbb{E}(X_n) = 0$ si $n = 15$
  • $\mathbb{E}(X_n) < 0$ si $n > 15$

y la fórmula para la media de puntuación es bastante sencilla que se hace obvio lo que la estrategia óptima es:

  • Jugar siempre que la puntuación actual es de menos de 15
  • No importa lo que usted hace cuando la puntuación es exactamente 15
  • Parar cuando la puntuación es mayor de 15

La razón de esto es óptima, porque:

  • Maximiza los valores de $\mathbb{E}(P_n R_n)$ para todos los términos donde $\mathbb{E}(X_n) > 0$, con el fin de obtener la mayor contribución de los rollos que podría aumentar su puntaje promedio
  • Hace $\mathbb{E}(P_n R_n) = 0$ para todos los términos donde $\mathbb{E}(X_n) < 0$, a fin de eliminar su contribución a la media.

Si usted tenía una función de utilidad (como se sugiere en esta otra respuesta), que podría sustituir a $X_n$ con el cambio en la utilidad. Dependiendo de la forma específica de la función de utilidad, el enfoque general puede o no puede todavía se aplican.

6voto

Litteul Puntos 68

Desgraciadamente hay muchos errores en el cálculo de la expectativa de propuestas:

1) La expectativa de no tomar en cuenta la optatividad de que el jugador decidir a jugar o no.

2) Además, desde el número de tiros que no está definido en su cálculo y engloba todos los posibles juegos jugados (dependiendo del número de lanzamientos), el cálculo es fundamentalmente errónea. Por ejemplo, las probabilidades de que usted está usando no agregar hasta 1. $$\sum_{i=1}^{\infty} (5/6)^n = \frac{1}{1-5/6} -1= 5 $$

3) Que parecen confundir la cuestión de cuándo debe dejar de jugar y cuál es el valor esperado de la apuesta (cuyo número de tirada de dados debe ser especificado)

Ahora para los posibles respuestas, voy a mantener la simplificación de la configuración que han utilizado:

1) Una forma de tener cierta intuición acerca de el problema es asumir que el juego consiste de $n$ lanza y calcular la ganancia esperada de juego que denota $X_n$. También vamos a nota: $I_n$ el indicador de que un 6 NO sale en la $n$-th rollo, es decir, $I_n=1$ si 6 no es hecho rodar. La intuición aquí si que para que el juego de pago $3j$ $1\le j\le n$ usted necesita tener $j$ rollos que no son 6 y un rollo inicial de 6 antes de esa racha (excepto si la racha dura toda la $n$ rollos):

$$ E[X_n] = \sum_{j=1}^{n-1} 3j (5/6)^j (1/6) + 3n(5/6)^n $$

Dado que este es un poco molesto para resolver en una buena fórmula que puede utilizarse esperanza condicional para encontrar a un paso de inducción: $$E[X_n \mid X_{n-1}] = E[(X_{n-1}+3)I_n \mid X_{n-1}] = (X_{n-1}+3)E[I_n] = \frac{5}{6}(X_{n-1}+3)$$ Tenga en cuenta que si sus ganancias son $X_{n-1}$ después $n-1$ rollos que sus ganancias son 0 si sacas un 6 siguiente (es decir,$I_n=0$) o sus ganancias se $X_{n-1} +3$.

Así, la expectativa sigue la inducción de la $E[X_n] = \frac{5}{6} (E[X_{n-1}] + 3)$ y se inicia con $E[X_1] = 3\frac{5}{6} = 2.5$.

Ahora la expectativa aumenta a medida $n$ crece hacia el límite de 15, la cual se puede determinar por la ecuación de $l=\frac{5}{6} (l+3)$.

Por lo tanto, este análisis sugieren que cuanto más juegues, mejor en promedio. En vista de mi siguiente punto de este límite de la expectativa es muy poco informativo (un poco como la paradoja de San Petersburgo).

2) voy a hacer de este uno corto(er). La segunda Borel-Cantelli lema implica que si usted juega para siempre, será infinitamente a menudo rollo seis con probabilidad 1. Por lo tanto, usted siempre va a volver a 0 ganancia. Esa es la mala noticia!

La buena noticia es que el mismo lema implica que si se fija un aumento de destino $x$ (si vas por encima de $x$ detener el juego y salir con sus ganancias) y jugar infinitamente a menudo (o hasta que se alcance el objetivo). A continuación, usted llegará a su destino con probabilidad 1 (que podría tomar un tiempo muy largo, por desgracia, dependiendo del destino).

Estos dos hechos ilustran cómo informativo que la expectativa es que en esta situación.

Espero que esto ayude y no era demasiado largo (bueno, tal vez no muy largo en este punto...)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X