Una historia en la actualidad en los Estados Unidos de noticias es una organización (en)convenientemente tenido varios específicos de las unidades de disco duro falla en el mismo período corto de tiempo. La pregunta es ¿cuál es la probabilidad de que esto iba a suceder? Me imagino que puede ser determinado de forma cuantitativa a ser muy raro, y me gustaría saber si un simple análisis es suficiente para llegar a esa conclusión, o es necesariamente más complicadas.
Podemos empezar con algunas de las hipótesis, todos los cuales pueden ser desafiados.
- Falla un disco duro con una exponencial de la función de densidad de probabilidad (pdf) $p(t)= \lambda e^{- \lambda t}$ donde $\lambda$ es el recíproco del MTBF (tiempo medio entre fallos).
- Todos los discos duros tienen un MTBF de más de 500.000 horas y operar bajo condiciones típicas.
- Los errores de disco duro son independientes. (Se ejecutan en equipos diferentes.No hay una relación sistemática que resultaría en una dependencia entre estas fallas y cualquier otra comúnmente compartidos, evento o condición.)
- Las fallas son de tipo físico (no sistemática, tales como software inducida)
- La organización opera de 100.000 unidades de disco duro como estos de forma simultánea.
Mientras los investigadores discuten sobre quién tiene las mejores credenciales pertinentes a la pregunta, creo que es susceptible de un análisis directo, de la siguiente manera:
Un límite superior en $P_{1}(T)$, la probabilidad de que un solo fallo en el tiempo T, se puede calcular a partir de la integración de los pdf en el intervalo de $[0, T]$, donde el pdf es máxima. La distribución de probabilidad $$P(t) = 1-e^{- \lambda t}$$ can be used to calculate $P(t=T)$.
La probabilidad de $P_{N}$ N específicas de las unidades de disco duro fracasar en ese intervalo de tiempo es $P_{N}(T)=(P_{1}(T))^N$.
Los hechos en la investigación no son totalmente claras, pero parece que estamos hablando de 6 específicos de las unidades de disco duro falla en una 1 semana (168 horas). Esto lleva a $$P_{1}(168)=1-e^{- 168/500,000}=3.36 \times 10^{-4}$$ and $$P_{6}(168)=1.44 \times 10^{-21}$$
Esto es tan increíblemente raro que me gustaría tratar de modificar mis suposiciones. En primer lugar, si el intervalo de tiempo es de 13 semanas, a continuación,$P_{6}(13*168)=6.85 \times 10^{-15}$. Siendo muy raro.
Incluso a reducir el MTBF 10.000 nos deja con $P_{6}(13*168)=5.7 \times 10^{-5}$ o casi de uno en un millón de posibilidades.
Una suposición de que yo no uso suposición de que el número 5, que hay 100.000 unidades de disco duro dentro de la organización. Aquí es donde la mentira, la maldita mentira y las estadísticas de fluencia. Pero creo que es seguro decir que esto es irrelevante, dado que el otro de los supuestos y de que estamos hablando específicos de las unidades de disco duro.
Basándose en este análisis, el cálculo de la probabilidad de que N específicas de las unidades de disco duro de fallar en un intervalo de tiempo puede ser fácilmente calculada. He cometido un error? Hay otros factores que podrían tener un efecto significativo en el resultado? Si es así, ¿cómo?