5 votos

Cálculo de probabilidades, tiempo de funcionamiento del sistema, probabilidad de ocurrencia

(redirigido aquí desde mathoverflow.net) Hola,

En el trabajo me han preguntado la probabilidad de que un usuario se encuentre con una interrupción en el sitio web. Tengo las siguientes métricas. Tiempo total de inactividad del sistema = 500.000 segundos al año. Cantidad total de segundos al año = 31.556.926 segundos. Por tanto, p de sistema caído = 0,159 o 1,59%. También podemos suponer que el tiempo de inactividad se produce de manera uniforme durante un período de aproximadamente 2 horas a la semana.

Ahora, aquí está la parte complicada. Tenemos una métrica para la cantidad de usuarios totales que intentan utilizar el servicio = 16.000.000 durante el mismo periodo de tiempo. Sin embargo, estos se subdividen en el tiempo total de uso del servicio. Así, digamos que tenemos 7.000.000 de usuarios que pasan entre 0 y 30 segundos intentando utilizar el servicio. Entonces, para estos usuarios, ¿cuál es la probabilidad de que el sistema no esté disponible? (Podemos suponer una media de 15 segundos en total si esto simplifica las cosas)

He buscado odds ratios y factores de riesgo, pero no estoy seguro de cómo calcular la probabilidad de que se produzca el evento.

Gracias de antemano.

P.D. Me dieron una posible respuesta, en http://mathoverflow.net/questions/52816/probability-calculation-system-uptime-likelihood-of-occurence y estaba siguiendo el consejo de publicar la pregunta en el foro más apropiado.

9voto

patfla Puntos 1

Bien, aquí está la respuesta que prometí. Inicialmente pensé que sería rápida, pero mi respuesta se ha hecho bastante grande, así que al principio, expongo mis resultados generales primero, y dejo los detalles sangrientos abajo para aquellos que quieran verlos.

Debo dar las gracias a @terry felkrow por esta fascinante pregunta - ¡si pudiera darle un +10 lo haría! Básicamente, esto es un ejemplo de la elegancia de los métodos bayesianos y de máxima entropía. ¡Me he divertido mucho trabajando en ello!

RESUMEN

Resultado exacto $$Pr(\theta \in (0,S)|F_{obs},T_U,T_D)=1-\frac{T_U}{T_U+T_D}\Bigg(\frac{T_U}{T_U+S}\Bigg)^{F_{obs}+1}$$

Dónde $\theta$ es la hora del primer tiempo de inactividad (en segundos) observado por el usuario, $T_U$ es el número de segundos de "tiempo de actividad" observados , $T_D$ es el número de segundos de "tiempo de inactividad" observados, y $F_{obs}$ es el número de "periodos de inactividad" (F de "fallos"); $\frac{T_D}{F_{obs}}$ es el número medio de segundos de "tiempo de inactividad") observado

En su caso, $F_{obs}$ no se da, pero supongo que se puede averiguar cuál es (por eso he dado la respuesta de conocido $F_{obs}$ ). Ahora bien, como usted sabe $T_D$ esto te dice un poco sobre $F_{obs}$ y debería ser capaz de plantear un "Valor Esperado" o una conjetura educada de $F_{obs}$ Llámalo $\hat{F}$ . Ahora, utilizando la distribución geométrica con parámetro de probabilidad $p=\frac{1}{\hat{F}}$ (es la distribución de máxima entropía para una media fija igual a $\hat{F}$ ), para integrar $F_{obs}$ da la probabilidad de (ver detalles para las matemáticas):

$$Pr(\theta \in (0,S)|\hat{F},T_U,T_D)=1-\frac{\Bigg(\frac{T_U}{T_U+T_D}\Bigg)\Bigg(\frac{T_U}{T_U+S}\Bigg)^2}{\hat{F}-(\hat{F}-1)\Bigg(\frac{T_U}{T_U+S}\Bigg)}$$

Por lo tanto, para su caso específico, la siguiente tabla muestra varios límites para diferentes $F$ , suponiendo que se conozca (columna 2) o se "espere" (columna 3). Se puede ver que el saber $F_{obs}$ comparando con el conocimiento de una suposición "aproximada" $\hat{F}$ sólo importa cuando es muy grande, (es decir, cuando el tiempo medio de inactividad observado es de 1 segundo o menos).

$$ \begin{array}{c|c} F & Pr(\theta \geq \text{S}|F_{obs},T_U,T_D) & Pr(\theta \in (0,S)|\hat{F},T_U,T_D) \\ \hline 1,000,000 & 0.625 & 0.499 \\ \hline 500,000 & 0.393 & 0.336 \\ \hline 250,000 & 0.227 & 0.207 \\ \hline 125,000 & 0.128 & 0.122 \\ \hline 62,500 & 0.074 & 0.072 \\ \hline 31,250 & 0.045 & 0.045 \\ \hline 15,685 & 0.031 & 0.030 \\ \hline 7,812 & 0.023 & 0.023 \\ \hline 1 & 0.016 & 0.016 \end{array} $$

DETALLES

Se basa en el ejemplo 3 del documento siguiente

Jaynes, E. T., 1976. `Confidence Intervals vs Bayesian Intervals', en Foundations of Probability Theory, Statistical Inference, and Statistical Theories of Science, W. L. Harper y C. A. Hooker (eds.), D. Reidel, Dordrecht, p. 175; pdf

Supone que la probabilidad de que una máquina funcione sin fallos durante un tiempo $t$ viene dada por $$Pr(\theta \geq t)=e^{-\lambda t};\ \ 0<t,\lambda < \infty$$ Dónde $\lambda$ es un "índice de fracaso" desconocido, que debe estimarse a partir de algunos datos.

Utilizaré esto para modelar los tiempos de fallo en 2 casos distintos. Donde "fallo" indica pasar de "trabajo" a "tiempo de inactividad", y al revés. Se puede pensar en esto como el modelado de dos procedimientos "sin memoria". Primero "esperamos" el tiempo de inactividad, desde el tiempo $t=t_{0u}=0$ , al tiempo $t=t_{1d}$ (para que hubiera $t_1$ segundos de tiempo de "funcionamiento" sin interrupción). Esto tiene una tasa de fallos de $\lambda_d$ En el momento $t=t_{1d}$ un nuevo proceso toma el relevo y ahora "esperamos" a que el tiempo de inactividad "falle" en el tiempo $t=t{1u}$ . También se supone que la tasa de fallos es constante en el tiempo, y que el proceso tiene incrementos independientes (es decir, si se sabe dónde está el proceso en el momento $t=s$ y el resto de la información sobre el proceso antes del tiempo $t<s$ es irrelevante). Esto es lo que se conoce como proceso de Markov de primer orden También se conoce como un proceso "sin memoria" (por razones obvias).

Bien, el problema es el siguiente, la ecuación de Jaynes (8) da la densidad que $r$ unidades de $n$ fallará en los tiempos $t_1 ,t_2 ,\dots,t_r$ y las restantes (n-r) no fallan en el momento t como $$p(t_1 ,t_2 ,\dots,t_r | \lambda,n)=[\lambda^r exp(-\lambda \sum_{i}t_i)][exp(-(n-r)\lambda t)]$$ A continuación, se asigna una priorización uniforme (la priorización particular que se utilice no importará en su caso porque tiene tantos datos que la probabilidad dominará cualquier priorización razonablemente "plana") a $\lambda$ Esto da una distribución predictiva posterior de (ver el artículo de Jaynes para más detalles, eq (9)-(13)): $$Pr(\theta\geq\theta_0|n,t_1 ,\dots,t_r)=\int_0^{\infty}Pr(\theta\geq\theta_0|\lambda)p( \lambda | t_1 ,t_2 ,\dots,t_r,n)d\lambda=\Bigg(\frac{T}{T+\theta_0}\Bigg)^{r+1}$$

Dónde $T=\sum_{i}t_i + (n-r)t$ es el tiempo total de funcionamiento de los dispositivos sin fallos. Esto indica que sólo necesitaba saber el "tiempo total sin fallos", que ambos han dado como $T_D=500,000$ y $T_U=31,556,926-500,000=31,056,926$ . También para su problema siempre observamos $n$ o $n-1$ "fracasos" por tiempo $t$ dependiendo de si el sistema estaba "apagado" o "encendido" en el momento $t$ .

Ahora bien, si supieras lo que $F_{obs}$ era, entonces sólo tienes que enchufar $r=F_{obs}$ a la ecuación anterior. La probabilidad de que un usuario no esté en el "tiempo de inactividad" en la primera $S$ segundos dado que el sistema estaba "levantado" cuando empezaron es entonces

$$Pr(\theta\geq S|[\text{Up at start} ],F_{obs},T_U)=\Bigg(\frac{T_U}{T_U+30}\Bigg)^{F_{obs}+1}$$

Pero la historia aún no ha terminado, porque podemos marginar (eliminar condiciones) aún más. Para hacer las ecuaciones más cortas, dejemos que $A$ representan el sistema estaba funcionando cuando el usuario inició y que $B$ representan no hay tiempo de inactividad en $S$ segundos . Entonces, por la ley de la probabilidad total, tenemos

$$Pr(B|F_{obs},T_U,T_D)=Pr(B|F_{obs},T_U,T_D,A)Pr(A|F_{obs},T_U,T_D)$$ $$+Pr(B|F_{obs},T_U,T_D,\overline{A})Pr(\overline{A}|T_U,T_D)$$

Ahora $\overline{A}$ significa que el sistema estaba caído cuando el usuario comenzó, por lo que es imposible que $B$ sea verdadera (es decir, sin tiempo de inactividad) cuando $\overline{A}$ es cierto. Por lo tanto, $Pr(B|F_{obs},T_U,T_D,\overline{A})=0$ y sólo tenemos que multiplicar por $Pr(A|F_{obs},T_U,T_D)$ . Esto viene dado por $\frac{T_U}{T_U+T_D}$ porque ninguna de las informaciones contenidas en $F_{obs},T_U,T_D$ dar ninguna razón para favorecer un momento concreto sobre otro.

$$Pr(\theta\geq S|F_{obs},T_U,T_D)=\frac{T_U}{T_U+T_D}\Bigg(\frac{T_U}{T_U+S}\Bigg)^{F_{obs}+1}$$

Al restarle 1 se obtiene el resultado deseado.

NOTA: Podemos tener conocimientos adicionales que favorezcan ciertos momentos, como saber a qué hora del día es más probable que se produzca una interrupción del sistema, o podemos creer que la interrupción del sistema está relacionada con el número de usuarios; este análisis ignora dicha información, por lo que podría mejorarse si se tuviera en cuenta.

NOTA: si sólo conocieras los datos aproximados de $F_{obs}$ , digamos que $\hat{F}$ se podría (en teoría) utilizar la distribución geométrica (tiene la mayor entropía para una media fija) para $F_{obs}$ con parámetro de probabilidad $p=\frac{1}{\hat{F}}$ y marginar sobre $F_{obs}$ para dar:

$$Pr(\theta \geq S|T_U,T_D)=\frac{T_U}{T_U+T_D}\sum_{i=1}^{i=\infty} p(1-p)^{i-1}\Bigg(\frac{T_U}{T_U+S}\Bigg)^{i+1}$$ $$=\frac{T_U}{T_U+T_D}\Bigg(\frac{T_U}{T_U+S}\Bigg)\sum_{i=1}^{i=\infty} p(1-p)^{i-1}\Bigg(\frac{T_U}{T_U+S}\Bigg)^{i}$$ $$=\frac{T_U}{T_U+T_D}\Bigg(\frac{T_U}{T_U+S}\Bigg)\sum_{i=1}^{i=\infty} p(1-p)^{i-1} exp\Bigg(i log\Bigg[\frac{T_U}{T_U+S}\Bigg]\Bigg)$$

Ahora la suma es sólo la función generadora de momentos, $m_{X}(t)=E[exp(tX)]$ evaluado en $t=log\Bigg[\frac{T_U}{T_U+S}\Bigg]$ . El mgf para la distribución geométrica está dada por:

$$m_{X}(t)=E[exp(tX)]=\frac{pe^t}{1-(1-p)e^t}$$ $$\rightarrow m_{X}(log\Bigg[\frac{T_U}{T_U+S}\Bigg])=\frac{p\Bigg[\frac{T_U}{T_U+S}\Bigg]}{1-(1-p)\Bigg[\frac{T_U}{T_U+S}\Bigg]}$$

Y esto da una probabilidad marginal de (observando $p=\frac{1}{\hat{F}}$ ):

$$Pr(\theta \geq S|T_U,T_D)=\frac{T_U}{T_U+T_D}\Bigg(\frac{T_U}{T_U+S}\Bigg)\frac{\frac{1}{\hat{F}}\Bigg[\frac{T_U}{T_U+S}\Bigg]}{1-(1-\frac{1}{\hat{F}})\Bigg[\frac{T_U}{T_U+S}\Bigg]}$$

Reordenando los términos se obtiene el resultado final: $$Pr(\theta \in (0,S)|T_U,T_D)=1-Pr(\theta \geq S|T_U,T_D)=1-\frac{\Bigg(\frac{T_U}{T_U+T_D}\Bigg)\Bigg(\frac{T_U}{T_U+S}\Bigg)^2}{\hat{F}-(\hat{F}-1)\Bigg(\frac{T_U}{T_U+S}\Bigg)}$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X