4 votos

Valor esperado de un juego de cartas con 6 cartas

Una baraja contiene 3 cartas con +valor de 1 y 3 cartas con el valor -1. El repartidor baraja las cartas y ofertas de cara uno por uno. Después de cada tarjeta es tratada, usted tiene la opción de detener el juego. Una vez que el juego está detenido, se le paga de acuerdo con el valor total de las cartas que se reparten. E. g. si se detiene el juego después de +1, +1, +1, se obtiene +3. ¿Cuál es el valor esperado de la estrategia óptima para este juego.

Mi intento:

Puesto que la suma de las cartas es el cero, usted nunca va a perder puntos en cada ronda. Si su trailing puntuación es negativa, usted puede guardar el dibujo para obtener al menos plana.

Estrategia: Dibuje hasta que obtenga un puntaje acumulado de +1 y parada.

Puesto que hay un total de 20 permutaciones 6!/(3!*3!) de este juego, a sólo 5 secuencias le dará un final puntuación de 0 o por debajo. Por lo que el valor esperado de esta estrategia: .75*1 + .25*0 = .75

Estrategia 2: roba dos cartas, si usted tiene un puntaje acumulado es mayor que 1, parada. De lo contrario, dibujar hasta obtener una puntuación de 1 y parada.

Yo era incapaz de averiguar cómo hacer los cálculos para esta estrategia, pero me hizo simular y al parecer es de un valor esperado de .85. ¿Alguien me puede caminar a través de las matemáticas de la segunda estrategia? Si la segunda estrategia no es el óptimo, lo que es una mejor estrategia?

5voto

obscurans Puntos 113

Usted puede calcular directamente la estrategia óptima y su valor esperado con un programa dinámico (inducción hacia atrás).

Considerar los posibles estados del juego, que puede ser completamente descrito por (el número de -1 cartas restantes, el número de +1 cartas restantes), con 16 posibilidades.

Colocarlos en un cuadrado de la cuadrícula de la siguiente manera (podría ser mejor en el papel, si se puede hacer es un diamante (3,3) y la izquierda (0,0) a la derecha)

$$\begin{array}{ccccccc} \stackrel{(0)}{(3,3)} & \rightarrow & \stackrel{(1)}{(3,2)} & \rightarrow & \stackrel{(2)}{(3,1)} & \rightarrow & \stackrel{(3)}{(3,0)}\\ \downarrow && \downarrow && \downarrow && \downarrow\\ \stackrel{(-1)}{(2,3)} & \rightarrow & \stackrel{(0)}{(2,2)} & \rightarrow & \stackrel{(1)}{(2,1)} & \rightarrow & \stackrel{(2)}{(2,0)}\\ \downarrow && \downarrow && \downarrow && \downarrow\\ \stackrel{(-2)}{(1,3)} & \rightarrow & \stackrel{(-1)}{(1,2)} & \rightarrow & \stackrel{(0)}{(1,1)} & \rightarrow & \stackrel{(1)}{(1,0)}\\ \downarrow && \downarrow && \downarrow && \downarrow\\ \stackrel{(-3)}{(0,3)} & \rightarrow & \stackrel{(-2)}{(0,2)} & \rightarrow & \stackrel{(-1)}{(0,1)} & \rightarrow & \stackrel{(0)}{(0,0)}\\ \end{array} $$ Las entradas están en la parte superior (puntuación si usted deja de aquí), inferior (#-1, #+1) que quedan en la baraja.

El truco es trabajar hacia atrás desde el (0,0) de la esquina y decidir en cada estado si desea continuar o no. Ejemplos:

  • No hay decisión en (0,0), es un valor de 0.
  • En (0,1) la elección es entre la toma de -1, o el dibujo de una tarjeta de la cual se obtiene 0. Ya que el dibujo es mejor, ahora sabemos (0,1) es también un valor de 0.
  • En (1,0) tomamos 1 en lugar de dibujo que se obtiene 0.
  • (1,1) una verdadera decisión. Detener vale 0. Dibujo consigue 1/2 oportunidad para mover a (1,0) [vale la pena 1] y 1/2 oportunidad para mover a (0,1) [vale 0]. Así que el dibujo es la pena 1/2 en promedio, y es óptimo para hacerlo.

Usted puede continuar llenando todos los estados para encontrar la estrategia óptima. Tenga en cuenta que la desigual tarjeta de cuenta de la materia: a decir (1,2), dibujo le da 1/3 oportunidad para mover a (0,2) y 2/3 oportunidad para mover a (1,1).

El lleno de la plaza se ve así: $$\begin{array}{ccccccc} \stackrel{17/20}{(3,3)} & \rightarrow & \stackrel{6/5}{(3,2)} & \rightarrow & \stackrel{\mathbf{2}}{(3,1)} & & \stackrel{\mathbf{3}}{(3,0)}\\ \downarrow && \downarrow && &&\\ \stackrel{1/2}{(2,3)} & \rightarrow & \stackrel{2/3}{(2,2)} & \rightarrow & \stackrel{\mathbf{1}}{(2,1)} & \rightarrow^{?} & \stackrel{\mathbf{2}}{(2,0)}\\ \downarrow && \downarrow && \downarrow^{?} &&\\ \stackrel{1/4}{(1,3)} & \rightarrow & \stackrel{1/3}{(1,2)} & \rightarrow & \stackrel{1/2}{(1,1)} & \rightarrow & \stackrel{\mathbf{1}}{(1,0)}\\ \downarrow && \downarrow && \downarrow &&\\ \stackrel{0}{(0,3)} & \rightarrow & \stackrel{0}{(0,2)} & \rightarrow & \stackrel{0}{(0,1)} & \rightarrow & \stackrel{\mathbf{0}}{(0,0)}\\ \end{array}$$

Los estados donde usted deja de tener su valor en negrita. En (2,1) no importa si dibujar o parada.

Puesto que usted ha hecho en el valor maximización de las opciones en cada paso, incluyendo los efectos de las posteriores decisiones, la Estrategia 2 es probado óptima, con un valor exactamente 17/20.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X