Voy a suponer que el suministro de videos es ilimitado y cada vídeo es un valor de 1 punto (oferta limitada haría que el problema de forma significativa más difícil).
Lo que queremos es maximizar los puntos ganados por unidad de tiempo. Es más fácil (equivalente) reducir al mínimo el tiempo necesario para obtener un punto. Ya que esto es aleatorio, vamos a minimizar el tiempo de espera necesario para ganar un punto. Nuestra estrategia sería para ver todos los vídeos que no son más que algunos de los tiempo máximo $m$.
Por lo tanto, si conocemos $m$, ¿cuál es el tiempo necesario para obtener un punto? En primer lugar, tenemos que esperar 5 años para cada uno de los vídeos que tenemos más de $m$. Entonces, tenemos que ver el video que tenemos que es el más corto de $m$.
La probabilidad de obtener un video largo (y por lo tanto saltar) puede ser calculado a partir del histograma. Permite llamar a ese $p_m$. A continuación, el número de vídeos que vamos a saltar sigue una distribución binomial negativa con $r=1$ y la probabilidad de $p_m$. El número esperado de salta es así $\frac{p_m}{1-p_m}$.
Del mismo modo, a partir del histograma podemos calcular la espera de la duración del vídeo, dado que es en la mayoría de las $m$.
Por lo tanto, si $L$ denota la duración del vídeo, nuestro tiempo dedicado a cada punto es $T(m) = 5\sec\frac{p_m}{1-p_m} + \mathbb{E}[L | L \leq m]$.
Ahora queremos minimizar $T(m)$. Se pueden calcular mediante nuestro histograma si se les da $m$. Aunque no tenemos una forma cerrada de expresión, sólo tenemos un único parámetro, $m$, que toma valores entre 0 y 1000, así que no debería ser difícil para optimizar, podemos utilizar una simple rejilla de búsqueda para encontrar el mejor $m$.
Nota adicional: No podría ser una formulación alternativa, donde en lugar de la maximización de los puntos ganados por unidad de tiempo, tenemos un duro límite de tiempo para ver vídeos y se desea maximizar la puntuación total. Si el límite de tiempo es grande, la de arriba es una buena aproximación. Pero para un pequeño límite de tiempo, el problema se vuelve significativamente más difícil.
En ese caso, el umbral óptimo podría cambiar con el tiempo restante. Podemos tratar de hacer frente a ese caso por la definición de dos funciones de $S(t)$, lo que da el óptimo resultado esperado si tenemos tiempo $t$, e $m(t)$, la duración del video umbral como una función del tiempo. Entonces tenemos, $S(t) = S(t-5)\mathbb{P}[L>m(t)] + \mathbb{E}[S(t-L) + 1|L\leq m(t)]\mathbb{P}[L\leq m(t)]$. A continuación, podemos utilizar programación dinámica para encontrar $m(t)$ e $S(t)$.