4 votos

Probabilidad y tiempo

Se trata de un problema del mundo real, pero he simplificado los números por comodidad.

Una actualización del sistema requiere $500$ minutos. Durante una actualización del sistema, la base de datos no estará disponible para $2$ minutos.

Hay una tarea que lleva $0.5$ minutos y necesita la base de datos durante todo el $0.5$ minutos o fallará.

Si ejecuto la tarea durante una actualización del sistema, ¿cuál es la probabilidad de que falle porque la base de datos no esté disponible?


Lo que he probado:

Probabilidad de que la BD no esté disponible durante un minuto determinado, durante la actualización = $\frac{2}{500}$ $= 0.004$

Probabilidad de fracaso de la tarea $= 0.5*0.004 = 0.002$

Pero eso no parece correcto porque si la tarea en lugar tomó $500$ minutos, la probabilidad de fallo debería ser $1$ sin embargo, el cálculo da $2$


Retomando el paso 4 de la respuesta de Semoi, obtengo un resultado diferente al aplicar la regla de Bayes.

$P(\textrm{fail} | t\le u) = P(u\le t+0.5 | t\le u) = \frac{P(t\le u | u\le t+0.5)P(u\le t+0.5)}{P(t\le u)}$

Pero

$P(t\le u | u\le t+0.5) = \frac{P(t\le u \cap u\le t+0.5)}{P(u\le t+0.5)} = \frac{P(t\le u\le t+0.5)}{P(u\le t+0.5)}$

Así que

$P(\textrm{fail} | t\le u) = \frac{P(t\le u\le t+0.5)}{P(t\le u)}$

Del mismo modo

$P(\textrm{fail} | t \ge u) = \frac{P(u\le t \le u+2)}{P(t\ge u)}$

entonces

$P(\textrm{fail}) = P(t\le u\le t+0.5) + P(u\le t \le u+2)$

Lo cual, en retrospectiva, me parece lógico. Es decir, falla si la base de datos está disponible en medio de la tarea, o si la tarea se inicia mientras la base de datos no está disponible. ¿O me he desviado del tema?

0 votos

Por favor, explique qué significa "ejecutar la tarea durante una actualización del sistema". ¿Incluiría eso sólo situaciones en las que la tarea iniciado mientras se realiza una actualización del sistema, o incluiría también situaciones en las que una actualización del sistema se solapa con la duración de la tarea? La respuesta depende de la distinción.

0 votos

@whuber Cualquiera que sea más sencillo de calcular estará bien para mi propósito.

5voto

jldugger Puntos 7490

Para reflexionar sobre cuestiones como ésta, haz un dibujo.

Para responder a estas preguntas, dibujar el cuadro ¡!


La cuestión

Seamos claros sobre la interpretación:

  • "Ejecutar la tarea durante una actualización del sistema" significa que iniciará la tarea durante un intervalo conocido ser una actualización del sistema.

  • "La base de datos no estará disponible durante 2 minutos" significa que en algún momento imprevisible durante la actualización, se producirá un continuo intervalo de dos minutos de no disponibilidad cayendo por completo durante el periodo de actualización.

Sea $x$ sea el inicio de la tarea. Evidentemente $0 \le x \lt 500$ .

Sea $y$ ser el inicio de la indisponibilidad. Evidentemente $0 \le y \le 500-2$ .

Hay muchas formas de interpretar "tiempo impredecible". Para ilustrarlo, supongamos que significa que se sabe que la interrupción de la base de datos tiene la misma probabilidad de comenzar en cualquiera de los momentos posibles: tiene una distribución uniforme.

Del mismo modo, hay muchas formas de modelar lo que significa ejecutar la tarea durante una actualización del sistema, y una de ellas es suponer que cada momento durante la actualización tiene la misma probabilidad de ser cuando se ejecuta la tarea.

(Estas suposiciones pueden ser más complicadas, pero equivalen a definir una distribución de probabilidad sobre el conjunto de todas las combinaciones de un inicio de tarea relevante). $x$ e inicio de interrupción de la base de datos $y$ . Las mismas imágenes que se muestran a continuación seguirán siendo útiles para asegurarte de que calculas las integrales correctas sobre esas distribuciones).


Una solución

El fallo se produce cuando la tarea se solapa con el periodo de interrupción de la base de datos. Esto es más fácil de evaluar en términos de no fallo: el fallo se evita cuando la tarea termina antes de la interrupción o comienza después. En términos de $x$ y $y$ este evento consiste en todas las combinaciones $(x,y)$ para lo cual

$$\text{Non-failure: } y + 1/2 \le x \text{ or } y \ge x + 2.$$

Esta figura muestra en azul los puntos que no fallan:

Figure 1

Las cifras $2$ y $1/2$ son tan pequeños en comparación con $500$ que es difícil ver mucho. Para ver el patrón, tracemos el mismo problema cuando la interrupción de la base de datos es mucho más larga; digamos $\eta=100$ minutos, no $2$ y la duración de la tarea también es mucho mayor, pero sigue siendo diferente de la interrupción; digamos que $\xi=40$ minutos, no $1/2$ :

Figure 2

Evidentemente, la región azul comprende dos triángulos rectángulos isósceles disjuntos. El de la parte superior izquierda tiene lados de longitud $500 -\eta -\xi$ mientras que el de la parte inferior derecha tiene lados de longitud $500 - \eta$ . El área total del conjunto de todos los $(x,y)$ coordenadas es un rectángulo (¡no un cuadrado!) de anchura $500$ y altura $500-\eta$ . (Observar la imagen nos ayuda a no cometer el error de suponer que las coordenadas relevantes son la totalidad de las coordenadas). $500\times 500$ cuadrado). Para la distribución uniforme, entonces, la probabilidad de no fallo es

$$\Pr(\text{Non-failure}) = \frac{((500 -\eta -\xi)^2 + (500 - \eta)^2)/2}{500(500-\eta)}.$$

Réstelo de $1$ para obtener la probabilidad de fracaso. Para $\eta=2$ y $\xi=1/2$ es igual a $9959/1992000 = 0.49995\%$ .

1voto

Semoi Puntos 133

Definamos la siguiente notación:

  • u: hora de inicio de la base de datos no disponible
  • t: hora de inicio de la tarea

Ahora considere lo siguiente:

  1. La densidad prob. que $U=u$ y $T=t$ viene dada por $f(u, t) = f_u(u) \cdot f_t(t)$ porque las dos variables aleatorias son independientes. Además, obtenemos la densidad prob. marginal $f_u(u) = \int dt\; f(u, t) $ y análogamente para $f_t(t)$ .
  2. Si la actualización debe finalizar después de 500min, la hora de inicio de la base de datos no disponible debe ser 2min antes del final. Por lo tanto, $U\sim \textrm{Uniform}(0,500-2)$ . Por lo tanto, $f_u(u) = \frac{1}{498}$ que es independiente del valor $u$ .
  3. Del mismo modo, $T\sim \textrm{Uniform}(0,500-0.5)$ . Por lo tanto, $f_t(t) = \frac{1}{499.5}$ .
  4. Ahora vamos a utilizar el ley de prob. total $$P(\textrm{fail}) = P(\textrm{fail} | t\le u) P(t \le u) + P(\textrm{fail} | t\ge u) P(t \ge u)$$ y consideremos cada término por separado:
    • $P(\textrm{fail} | t\le u) = P(u\le t+0.5 | t\le u) = \frac{P(u\le t+0.5)}{P(t\le u)}$ donde utilizamos Regla de Baye la definición de probabilidad condicional (EDITADO) .
    • Del mismo modo expresamos $P(\textrm{fail} | t\ge u)$ . Sin embargo, ahora hay que tener en cuenta los 2min.

Así que nos quedan términos como $P(u\le t+0.5)$ que calculamos utilizando las densidades de probabilidad marginales de (1) por integración.

0 votos

En su aplicación de la regla de Bayes, ¿no debería ser $P(u\le t+0.5 | t\le u) = \frac{P(t \le u|u\le t+0.5)P(u\le t+0.5)}{P(t\le u)}$ ? ¿O estoy pasando algo por alto?

0 votos

Entiendo todo hasta ese punto, y veo cómo hacer la integral. Tu explicación es muy clara.

1 votos

Esta explicación parece complicar en exceso un problema fundamentalmente sencillo. ¿Por qué no dibujar el caso de fallo en el $(u,t)$ ¿Avión? Aunque es algo complicado -es el interior de un hexágono- será inmediatamente obvio cómo calcular su área, que es proporcional a su probabilidad bajo tu suposición de una distribución uniforme. Es evidente que no se necesita la regla de Bayes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X