12 votos

Fórmula para la época de recolección más cercano (pero después de) destino

Digamos que usted tiene una longitud arbitraria de tiempo. Usted está jugando un juego en el que usted quiere empujar un botón durante este lapso de tiempo, después de que una luz se enciende. Si lo hace, usted gana ($+1$), si no, se pierde ($0$). Usted no puede ver la luz; sólo se puede adivinar un tiempo aleatorio para presionar el botón. Si usted está jugando el todo por sí mismo, la forma más obvia para garantizar la ganancia es para presionar el botón en el último instante, de modo que usted será después de que la luz que entra en no importa qué.

Ahora digamos que usted está jugando contra otro jugador. Ambos tienen el mismo objetivo: presione el botón después de que se encienda la luz, pero antes de que el otro jugador presiona su botón. Estoy bastante seguro de que la mejor solución en este caso sería para presionar el botón en el punto medio exacto de la gama de tiempo, pero podría ser que no hay ninguna solución óptima. Esto se complica por el hecho de que uno puede perder, ya sea ser el primero o el tercero en la secuencia de los eventos de tres, y en algunos casos por ser segundo, si la luz es el tercero. También, ambos jugadores pueden perder; no gana por estar más cerca si eres demasiado temprano. (Si ambos jugadores ganan, cada uno de ellos consigue $\frac12$.)

Si no es una solución óptima para el segundo caso, puede ser generalizada de alguna manera? Para una longitud de tiempo t y un número aleatorio de los jugadores p es un momento x que daría la mejor oportunidad de ser el ganador? Esto es algo así como la forma en que funciona el sistema de ofertas en El Precio es Correcto, excepto que no hay manera de juzgar el "valor", o el momento correcto, para hacer una oferta.

EDIT: Vamos a aprovechar también esta a un nivel superior. Considere la posibilidad de jugar varias rondas del juego. Se le permite un botón de cada juego, por lo que el número total de rondas y empuja permitidas son el mismo, pero usted puede distribuir su empuja sin embargo te gusta, en cualquier lugar de uno por ronda a todos en la misma ronda. Existe una combinación óptima a ese nivel? Recordar de nuevo que no se sabe cuando o si el otro jugador estaba jugando en cualquier ronda en particular, sólo saber si había ganado o perdido esa ronda, y es posible ganar y perder si o no el otro jugador juega.

4voto

Will Nelson Puntos 3966

La gran hipótesis que voy a hacer en mi respuesta son: (1) que todas las distribuciones son absolutamente continuas (con respecto a Lebesgue) en todas partes, por lo que podemos emplear densidades de probabilidad, (2) El apoyo de ambos jugadores estrategias son los mismos y de la forma $[a,b]$. Tal vez alguien puede ampliar esta respuesta por la relajación de estos supuestos.

Vamos $F$, $G_1$ y $G_2$ ser la cdf de la luz y los jugadores 1 y 2 tiempos de llegada. Vamos $f$, $g_1$, y $g_2$ la correspondiente densitites.

El jugador 1 la expectativa de ganar es $$ P = \int_0^{\infty} I(t) \ d G_1(t) $$ donde $$ I(t) = F(t)(1-G_2(t)) + \int_0^t G_2(t) dF(t'). $$ El primer término en el integrando corresponde a $\mathbb{P}(light \le 1 < 2)$. El segundo es $\mathbb{P}(2 \le light \le 1)$.

El jugador 1 elige $G_1$ a maximizar su rentabilidad. Eso significa que él elige $G_1$ con su apoyo, donde el integrando $I(t)$ $P$ por encima de la diversión. Si $G_1$'s de apoyo es $[a,b]$, lo que significa que \begin{eqnarray} (1)\ \ I(t) \ \mbox{ is a constant on %#%#%} \\ (2)\ \ I([a,b])\ge I(t) \mbox{ for any %#%#%}. \end{eqnarray} Se diferencian, y nos encontramos con el siguiente problema de valor de frontera: \begin{eqnarray} 0 &=& f(t) (1-G_2(t)) - F(t) G_2'(t) + G_2(t) f(t) \\ G_2(a) &=& 0 \\ G_2(b) &=& 1. \end{eqnarray} Esto se simplifica a $$ f(t) = F(t) G_2'(t). $$ La BVP se resuelve fácilmente: $$ (3)\ \ \ G_2(t) = \log\left(\frac{F(t)}{F(un)}\right) \ \ \mbox{ para $[a,b]$}, $$ pero requerimos $t\ge 0$, por lo que debemos tener $t\in[a,b]$.

Deje $G_2(b) = 1$ será el fin del soporte de $F(b) = e F(a)$, es decir, (de manera informal) la última vez que la luz podría venir en. Podríamos tener $T$. Tenga en cuenta que \begin{eqnarray} I(b) &=& \int_0^b G_2(t') dF(t') \\ I(T) &=& \int_0^T G_2(t') dF(t') \end{eqnarray} Si $F$, luego la segunda integral estrictamente supera la primera, violando $T=+\infty$ por encima. Por lo tanto, $b<T$. Pero por $(2)$, $b\ge T$ es plana para $(3)$, lo que en realidad, $G_2(t)$.

En resumen: elija $t>T$ tal que $b=T$ y elija $a$ según $F(a) = e^{-1}$. $G_2$ es el mismo.

Nota de paso que hice no asumir que los jugadores utilizan la misma estrategia, sólo que los soportes son los mismos.

Ahora he hecho la parte fácil. Cómo lidiar con la posibilidad de diferentes soportes, apoyos que no son los intervalos, no absolutamente continuas distribuciones, etc., Voy a dejar a alguien más!

2voto

user87400 Puntos 120

Suponemos que el conjunto de conocimientos comunes del juego (cada jugador lo sabe, y cada jugador sabe que el otro jugador conoce etc), es (omitiendo los trámites):

$1)$ Las reglas del juego. Estas reglas incluyen que si el botón se presiona después de $T$ el jugador pierde (sólo asume de forma implícita en el OP pregunta).
$2)$ Que ambos jugadores son "racionales", que significa en nuestro caso que prefieren ganar a perder, y que no van a adoptar estrictamente dominada estrategias.
$3)$ Que la "longitud de tiempo" es finita, $[0,T]$.
$4)$ Que la distribución de la temporización de la luz de flash $\lambda$$G(\lambda)$, Uniformes u otros.
$5)$ Que ambos jugadores siguen el principio de razón insuficiente, cuando surja la necesidad. Esto significa que cuando no hay información relevante está disponible, el azar es modelada como una variable aleatoria uniforme. (Nota: tenemos que asumir que, porque, aunque el principio de razón insuficiente es muy intuitivo argumento, sin embargo, filosófica y epistemológica batallas todavía la rabia a través de este principio, y así, la "racionalidad" solo es no suficiente para argumentar que el PIR será seguido).

Denotar $t_1$ el tiempo a la elección del jugador $1$ $t_2$ el tiempo a la elección del jugador 2. Tanto en$t_1$$t_2$$[0,T]$. Ellos no pueden rango de $0$ porque es imposible, y no la gama por encima de $T$ debido a que esta es estrictamente una estrategia dominada.

Si estamos reproductor $1$, $t_1$ es una variable de decisión, mientras que, $\lambda$ $t_2$ son variables aleatorias. La probabilidad de que nos winnig es

$$P(\text {player 1 wins}) = P(\lambda \le t_1, t_2 > t_1) $$

Ahora, desde el punto de vista de jugador 1, $\lambda$ $t_2$ son independientes de las variables aleatorias: si el jugador $1$ "sabe" que $\lambda = \bar \lambda$, esto no afectará a cómo él ve la distribución de $t_2$. Así

$$P(\text {player 1 wins}) = P(\lambda \le t_1) \cdot P(t_2 > t_1) = G(t_1)\cdot [1-F_2(t_1)]$$

donde $F_2()$ es la función de distribución de $t_2$. Reproductor $1$ quiere maximizar su probabilidad sobre la elección de $t_1$:

$$\max_{t_1} P(\text {Player 1 wins})= G(t_1)\cdot [1-F_2(t_1)] $$

La primera condición es el fin de

$$\frac {\partial}{\partial t_1} P(\text {Player 1 wins}) =0 \Rightarrow g(t_1^*)\cdot [1-F_2(t_1^*)] - G(t_1^*)f_2(t_1^*) =0 \qquad [1]$$

donde las minúsculas denotan las correspondientes funciones de densidad (que suponemos que existen).

El segundo orden de condición (porque tenemos que asegurarnos de que este es el máximo), es

$$\frac {\partial^2}{\partial t_1^2} P(\text {Player 1 wins})|_{t^*_1} <0 \Rightarrow \\ g'(t^*_1)\cdot [1-F_2(t^*_1)] - 2g(t^*_1)f_2(t^*_1) - G(t^*_1)f'_2(t^*_1) <0 \qquad [2]$$

Ahora, ya no tenemos ninguna otra información sobre el calendario de la luz de flash, a excepción de su rango, por nuestros supuestos sobre el conocimiento común de conjunto, $\lambda \sim U(0,T)$. Entonces

$$[1] \rightarrow \frac 1T [1-F_2(t_1^*)] - \frac {t_1^*}{T}f_2(t_1^*) =0 \Rightarrow t_1^* = \frac {1-F_2(t_1^*)}{f_2(t_1^*)} \qquad [1a]$$

mientras $$[2] \rightarrow - \frac 2Tf_2(t^*_1) - \frac {t_1^*}{T}f'_2(t^*_1) =-\frac 1{T}\Big(2f_2(t^*_1)+t^*_1f'_2(t^*_1)\Big) \qquad [2a]$$

Para cubrir una conjetura de la OP, que el botón va a ser empujado en el punto medio exacto de la duración, esto ocurrirá si el jugador $1$ modelos de $t_2$ como ser un uniforme de la variable aleatoria, $t_2 \sim U(0,T)$. Entonces

$$[1a] \rightarrow t_1^* = \frac {1-(t_1^*/T)}{1/T} = T-t_1^* \Rightarrow t_1^* =T/2 \qquad [1b]$$ y $$[2a] \rightarrow -\frac 1{T}\frac 2T <0 \qquad [2b]$$ así que de hecho será un máximo (del mismo modo que para el jugador 2).

Reproductor $1$ modelo $t_2$ como un Uniforme, si él no tiene ninguna otra información sobre el mismo a excepción de su gama. Bien, ¿se sabe algo más? Por el conjunto de conocimientos comunes, él sabe que el jugador $2$ también tratará de maximizar de su parte, y que ella va a modelar la temporización de la luz de flash como un uniforme. Así que el jugador $1$ sabe que el jugador $2$ va a terminar mirando a las condiciones

$$t_2^* = \frac {1-F_1(t_2^*)}{f_1(t_2^*)},\;\; [3] \qquad -\frac 1{T}\Big(2f_1(t^*_2)+t^*_2f'_1(t^*_2)\Big) <0 \qquad [4]$$

Ese conocimiento permiso reproductor $1$ inferir algo acerca de la distribución de $t_2$? No, porque el $[3]$ $[4]$ contienen información de resumen acerca de cómo $t_2$ será determinado en función de lo que, según el jugador $2$, es el de la distribución de $t_1$. Ellos no ayudan a que el jugador 2 en modo alguno en relación a la distribución de $t_2$.

Así llegamos a la conclusión, de que , dado el supuesto conjunto de conocimientos comunes, ambos modelo de cada una de las otras distribuciones Uniformes. Hmmm... ¿esto nos dice que, efectivamente, la solución del juego se $(t_1^*,t_2^*) =? (T/2,\,T/2)$?
Parece que ya que esencialmente puede predecir la elección de los otros, ellos tendrán un incentivo para presionar el botón anterior. No tome pensar mucho para darse cuenta de que esta línea de pensamiento nos llevaría a la conclusión de que ambos se pulsa el botón en el momento $0$, por lo tanto un.s. "garantizar" que los dos van a perder, que ellos también saben, debido a que tanto el tratamiento de la luz del flash como un continuo rv, y por lo que la probabilidad de que el destello de luz que ocurren exactamente en el tiempo cero, es cero. Pero esto es estrictamente una dominado la estrategia y los jugadores no se seleccione.

Tampoco paga de forma aleatoria en el intervalo de $[0,T/2]$? Bueno, no, porque la probabilidad de ganar no será a un máximo. Así llegamos a la conclusión de que, efectivamente, la solución a este juego es

$$(t_1^*,t_2^*) = (T/2,\,T/2)$$

aunque los jugadores saber a priori lo que cada uno debe desempeñar.No es difícil calcular que en este caso la espera pagas serán $$ (v_1,v_2) = (1/4,\; 1/4)$$ Esta pura estrategia perfil va a ser una rationalizible equilibrio si no es estrictamente dominada por una estrategia mixta.

1voto

Nameless Puntos 2331

Permítanme darles un ejemplo sencillo de un simétrica mixto equilibrio de Nash, donde los jugadores están limitados a la mezcla de manera uniforme.

Supongo que el tiempo es finito. Sin pérdida de generalidad, considerar el intervalo de tiempo $[0,1]$. Supongamos que tenemos dos jugadores, somos el jugador 1, y asumimos que ambos jugadores usan un simétrica mezcla de estrategia. La estrategia está dada por el cdf $G(x)=\frac{x}{1-a}$, es decir, uniforme en $[a,1]$, $1> a \ge 0$. Suponemos que la única elección libre es $a\in[0,1)$ (en particular, un jugador no puede desviarse a otro cdf $H(x)\neq G(x)$ algunos $a$).

Por simplicidad, asumimos, además, que la luz de encendido se distribuye $U[0,1]$ (es decir, con la densidad $f(x)=1$$[0,1]$).

El beneficio esperado para nosotros (jugador 1), dados estos supuestos, es (sólo obtendremos una rentabilidad de 1 si, al pulsar el botón, la luz está encendida y de que el otro jugador no ha pulsa el botón, o si el otro jugador golpea el botón antes de que la luz se enciende y nos golpeó después, de lo contrario 0) \begin{equation*} u=\int_a^1 \underbrace{F(x)}_{\text{Pr light comes on at %#%#% }} \underbrace{g(x)}_{\text{We hit the button at %#%#% }} \underbrace{(1-G(x))}_{\text{Pr player 2 hits button at %#%#% }} \underbrace{1}_{\text{we win 1}} dx \\ +\int_a^1 \underbrace{G(x)}_{\text{Pr player 2 hits button at %#%#% }} \underbrace{f(x)}_{\text{Light turns on at %#%#% }} \underbrace{(1-G(x))}_{\text{Pr we hit the button at %#%#% }} 1~ dx \\ =\int_a^1 xg(x)(1-G(x))dx+\int_0^a G(x)(1-G(x))dx\\ =2\int_a^1 x\frac{1}{1-a}(1-\frac{x}{1-a}) dx=2\int_a^1 G(x)(1-G(x)) dx\\ =2\int_a^1 G(x)-G(x)^2 dx. \end{ecuación*} Queremos encontrar el $t\le x$ que maximiza el retorno esperado tanto mezcla de jugadores con la densidad de $x$. Dicho de otra manera, queremos encontrar el $t>x$ de manera tal que la estrategia de $t\le x$ es una mejor respuesta a la misma, la cual, por definición, constituye un equilibrio de Nash simétrico. Por lo tanto, por Leibniz integral de la regla, la condición de primer orden es \begin{equation*} \frac{\partial u}{\partial a}=2\int_a^1 \frac{x}{(1-a)^2}-2\frac{x^2}{(1-a)^3} dx-2G(a)+2G(a)^2\\ =\frac{1+a^2}{(1-a)^2}-\frac{4}{3}\frac{1-a^3}{(1-a)^3} -2\frac{a}{1-a}. \end{ecuación*} Ahora, $x$$t\ge x$, y, de hecho,$a$, como puede verse aquí. Por lo tanto, la solución esquina $g(x)$ es óptimo, ya que la utilidad marginal como $a$ de aumento es negativo.

Podemos repetir el ejercicio completo, por cdf $g(x)$, es decir, una mezcla uniforme en $u'\to -\infty$. La utilidad marginal es siempre positivo, y de nuevo la esquina de la solución de $a\to 1$ es óptimo (es decir, de nuevo el mayor número posible de intervalo).

Este es un restrictiva ejemplo, ya que me obligó a ambos jugadores para jugar con una densidad de forma específica, pero al menos en la clase de uniforme simétrico equilibrios, poniendo de densidad positiva en el mayor número posible de intervalo parece ser el óptimo. Tal vez esto se generaliza a otras clases. No imponer una forma funcional para la mezcla densidad hace que el problema muy difícil, y asumiendo otras formas específicas es posible, pero más tedioso. Tomando otra densidad para la luz de encendido es igualmente posible. Pero, en ausencia de cualquier información acerca de la luz de encendido, el principio de razón insuficiente llamadas para el supuesto de una distribución uniforme.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X