Suponemos que el conjunto de conocimientos comunes del juego (cada jugador lo sabe, y cada jugador sabe que el otro jugador conoce etc), es (omitiendo los trámites):
$1)$ Las reglas del juego. Estas reglas incluyen que si el botón se presiona después de $T$ el jugador pierde (sólo asume de forma implícita en el OP pregunta).
$2)$ Que ambos jugadores son "racionales", que significa en nuestro caso que prefieren ganar a perder, y que no van a adoptar estrictamente dominada estrategias.
$3)$ Que la "longitud de tiempo" es finita, $[0,T]$.
$4)$ Que la distribución de la temporización de la luz de flash $\lambda$$G(\lambda)$, Uniformes u otros.
$5)$ Que ambos jugadores siguen el principio de razón insuficiente, cuando surja la necesidad. Esto significa que cuando no hay información relevante está disponible, el azar es modelada como una variable aleatoria uniforme. (Nota: tenemos que asumir que, porque, aunque el principio de razón insuficiente es muy intuitivo argumento, sin embargo, filosófica y epistemológica batallas todavía la rabia a través de este principio, y así, la "racionalidad" solo es no suficiente para argumentar que el PIR será seguido).
Denotar $t_1$ el tiempo a la elección del jugador $1$ $t_2$ el tiempo a la elección del jugador 2. Tanto en$t_1$$t_2$$[0,T]$. Ellos no pueden rango de $0$ porque es imposible, y no la gama por encima de $T$ debido a que esta es estrictamente una estrategia dominada.
Si estamos reproductor $1$, $t_1$ es una variable de decisión, mientras que, $\lambda$ $t_2$ son variables aleatorias. La probabilidad de que nos winnig es
$$P(\text {player 1 wins}) = P(\lambda \le t_1, t_2 > t_1) $$
Ahora, desde el punto de vista de jugador 1, $\lambda$ $t_2$ son independientes de las variables aleatorias: si el jugador $1$ "sabe" que $\lambda = \bar \lambda$, esto no afectará a cómo él ve la distribución de $t_2$. Así
$$P(\text {player 1 wins}) = P(\lambda \le t_1) \cdot P(t_2 > t_1) = G(t_1)\cdot [1-F_2(t_1)]$$
donde $F_2()$ es la función de distribución de $t_2$. Reproductor $1$ quiere maximizar su probabilidad sobre la elección de $t_1$:
$$\max_{t_1} P(\text {Player 1 wins})= G(t_1)\cdot [1-F_2(t_1)] $$
La primera condición es el fin de
$$\frac {\partial}{\partial t_1} P(\text {Player 1 wins}) =0 \Rightarrow g(t_1^*)\cdot [1-F_2(t_1^*)] - G(t_1^*)f_2(t_1^*) =0 \qquad [1]$$
donde las minúsculas denotan las correspondientes funciones de densidad (que suponemos que existen).
El segundo orden de condición (porque tenemos que asegurarnos de que este es el máximo), es
$$\frac {\partial^2}{\partial t_1^2} P(\text {Player 1 wins})|_{t^*_1} <0 \Rightarrow \\ g'(t^*_1)\cdot [1-F_2(t^*_1)] - 2g(t^*_1)f_2(t^*_1) - G(t^*_1)f'_2(t^*_1) <0 \qquad [2]$$
Ahora, ya no tenemos ninguna otra información sobre el calendario de la luz de flash, a excepción de su rango, por nuestros supuestos sobre el conocimiento común de conjunto, $\lambda \sim U(0,T)$. Entonces
$$[1] \rightarrow \frac 1T [1-F_2(t_1^*)] - \frac {t_1^*}{T}f_2(t_1^*) =0
\Rightarrow t_1^* = \frac {1-F_2(t_1^*)}{f_2(t_1^*)} \qquad [1a]$$
mientras
$$[2] \rightarrow - \frac 2Tf_2(t^*_1) - \frac {t_1^*}{T}f'_2(t^*_1) =-\frac 1{T}\Big(2f_2(t^*_1)+t^*_1f'_2(t^*_1)\Big) \qquad [2a]$$
Para cubrir una conjetura de la OP, que el botón va a ser empujado en el punto medio exacto de la duración, esto ocurrirá si el jugador $1$ modelos de $t_2$ como ser un uniforme de la variable aleatoria, $t_2 \sim U(0,T)$. Entonces
$$[1a] \rightarrow t_1^* = \frac {1-(t_1^*/T)}{1/T} = T-t_1^* \Rightarrow t_1^* =T/2 \qquad [1b]$$
y
$$[2a] \rightarrow -\frac 1{T}\frac 2T <0 \qquad [2b]$$
así que de hecho será un máximo (del mismo modo que para el jugador 2).
Reproductor $1$ modelo $t_2$ como un Uniforme, si él no tiene ninguna otra información sobre el mismo a excepción de su gama. Bien, ¿se sabe algo más? Por el conjunto de conocimientos comunes, él sabe que el jugador $2$ también tratará de maximizar de su parte, y que ella va a modelar la temporización de la luz de flash como un uniforme. Así que el jugador $1$ sabe que el jugador $2$ va a terminar mirando a las condiciones
$$t_2^* = \frac {1-F_1(t_2^*)}{f_1(t_2^*)},\;\; [3] \qquad -\frac 1{T}\Big(2f_1(t^*_2)+t^*_2f'_1(t^*_2)\Big) <0 \qquad [4]$$
Ese conocimiento permiso reproductor $1$ inferir algo acerca de la distribución de $t_2$? No, porque el $[3]$ $[4]$ contienen información de resumen acerca de cómo $t_2$ será determinado en función de lo que, según el jugador $2$, es el de la distribución de $t_1$. Ellos no ayudan a que el jugador 2 en modo alguno en relación a la distribución de $t_2$.
Así llegamos a la conclusión, de que , dado el supuesto conjunto de conocimientos comunes, ambos modelo de cada una de las otras distribuciones Uniformes. Hmmm... ¿esto nos dice que, efectivamente, la solución del juego se $(t_1^*,t_2^*) =? (T/2,\,T/2)$?
Parece que ya que esencialmente puede predecir la elección de los otros, ellos tendrán un incentivo para presionar el botón anterior. No tome pensar mucho para darse cuenta de que esta línea de pensamiento nos llevaría a la conclusión de que ambos se pulsa el botón en el momento $0$, por lo tanto un.s. "garantizar" que los dos van a perder, que ellos también saben, debido a que tanto el tratamiento de la luz del flash como un continuo rv, y por lo que la probabilidad de que el destello de luz que ocurren exactamente en el tiempo cero, es cero. Pero esto es estrictamente una dominado la estrategia y los jugadores no se seleccione.
Tampoco paga de forma aleatoria en el intervalo de $[0,T/2]$? Bueno, no, porque la probabilidad de ganar no será a un máximo. Así llegamos a la conclusión de que, efectivamente, la solución a este juego es
$$(t_1^*,t_2^*) = (T/2,\,T/2)$$
aunque los jugadores saber a priori lo que cada uno debe desempeñar.No es difícil calcular que en este caso la espera pagas serán
$$ (v_1,v_2) = (1/4,\; 1/4)$$
Esta pura estrategia perfil va a ser una rationalizible equilibrio si no es estrictamente dominada por una estrategia mixta.