La estrategia óptima es el codicioso: en cada paso, elegir la puerta $i$ con la mayor probabilidad relativa de escapar de $p_i/q_i$. (Sin embargo, los codiciosos, la solución sólo es óptimo si elegimos para abrir todas las puertas; véase la nota a pie de página.)
Prueba: Considerar la estrategia que consiste en la apertura de las puertas de $1,2,3,\ldots,n$ a fin de continuar a la siguiente si todavía no hemos escapado). Comparar a la estrategia en la que han cambiado el orden de los dos vecinos de puertas, dicen puerta $i$$i+1$. Afirmo que la primera estrategia es mejor que la segunda estrategia, si y sólo si $p_i/q_i \geq p_{i+1}/q_{i+1}$. Por lo tanto, para cualquier estrategia, obtenemos una mejor estrategia cambiando el orden de cualquier par de vecinos puertas $i,i+1$ de manera tal que el nuevo par satisface $p_i/q_i \geq p_{i+1}/q_{i+1}$; por recorrer en este procedimiento hasta que se detenga siempre vamos a terminar con un ordenamiento de las puertas que $p_1/q_1\geq p_2/q_2\geq\cdots p_n/q_n$, por lo que la estrategia de apertura de puertas $1,2,\ldots,n$ en orden óptimo es, precisamente, si se cumple esta condición.
Voy a probar ahora el reclamo. La probabilidad de que nos va a escapar si abrimos las puertas de $1,2,3,\ldots,n$ en orden, es
$$p_1+r_1(p_2+r_2(p_3+r_3(p_4+r_4(p_5+r_5(\cdots))))).$$
Dicen que el interruptor de las puertas de $3$$4$. Entonces la probabilidad de escapar es
$$p_1+r_1(p_2+r_2(p_4+r_4(p_3+r_3(p_5+r_5(\cdots))))).$$
La primera probabilidad es $\geq$ la segunda probabilidad si y sólo si
$$p_3+r_3(p_4+r_4x) \geq p_4+r_4(p_3+r_3x)$$
donde $x:=p_5+r_5(\cdots),$ que es equivalente a
$$\begin{gather}
p_3+r_3p_4 \geq p_4+r_4p_3 \iff \\
p_3(1-r_4) \geq p_4(1-r_3) \iff \\
p_3(p_4+q_4) \geq p_4(p_3+q_3) \iff \\
p_3q_4 \geq p_4q_3,
\end{reunir}$$
que es equivalente a $p_3/q_4 \geq p_4/q_4$, por lo que estamos por hacer. Cambié los lugares de puertas 3 y 4 en lugar de puertas $i$$i+1$, pero que fue sólo por la simplicidad de notación y debe estar claro de que esto funcionará para cualquier $i$. Esto completa la prueba.
Nota: quiero mencionar, sin embargo, que el algoritmo voraz sólo es óptimo si vamos a través de la apertura de todas las puertas. Si elegimos una estrategia en la que sólo abrir una puerta, y luego se detiene, independientemente de si se nos permite volver o no, va a ser optimizado mediante la elección de la puerta con el mayor $p_i$ lugar. Por otra parte, uno puede encontrar un conjunto de tres puertas que $p_1/q_1>p_2/q_2>p_3/q_3$, pero la apertura de las puertas 1 y, a continuación, 3 y detener da una menor probabilidad de escapar de la apertura de las puertas 2 y 3 y, a continuación, detener.