58 votos

Cómo saber la probabilidad de fracaso si no hubo errores?

Me preguntaba si hay una manera de decirle a la probabilidad de que algo en su defecto (producto), si tenemos 100.000 productos en el campo de 1 año y sin fallos? ¿Cuál es la probabilidad de que uno de los próximos 10.000 productos que se venden no?

50voto

Sean Hanley Puntos 2428

La probabilidad de que un producto no es seguramente una función del tiempo y el uso. No tenemos datos sobre su uso, y con solo un año que no hay fracasos (¡felicidades!). Por lo tanto, este aspecto (llamado la supervivencia de la función), no puede ser estimada a partir de los datos.

Usted puede pensar de fallas dentro de un año como dibuja a partir de una distribución binomial, sin embargo. Aún no tiene fallos, pero este es un problema común. Una solución simple es usar la regla de 3, que es precisa con grandes $N$ (que, por cierto). Específicamente, usted puede obtener el límite superior de un solo lado del 95% intervalo de confianza (es decir, el límite inferior es 0$$) en la verdadera probabilidad de fallo en el plazo de un año como $3/$ N. En su caso, le sean de confianza del 95% que la tasa es de menos de $de 0,00003$.

También se le preguntó cómo calcular la probabilidad de que uno o más de los siguiente 10k falla. Una forma rápida y sencilla (aunque extrema) forma de extender el análisis anterior es solo usar el límite superior como el de probabilidad subyacentes y el uso de la correspondiente binomio CDF para obtener la probabilidad de que no habrá $0$ fracasos. El uso de R código, podríamos hacer: 1-pbinom(0, size=10000, prob=0.00003), lo que produce un 0.2591851 oportunidad de ver a uno o más errores en el siguiente 10k productos. Por haber utilizado el límite superior, este no es el punto óptimo de la estimación de la probabilidad de tener al menos un fracaso, más bien se puede decir que es muy improbable que la probabilidad de que $\ge 1$ fracaso es más que $\aprox 26\%$ (reconociendo que esta es una especie de "mano-ondulado de' framing). Otra posibilidad es el uso de @ameba sugerencia de la estimación de Laplace de la regla de la sucesión. La regla de sucesión de estados que la estimación de la probabilidad de fallo es de $(F+1)/(N+2)$, donde $F$ es el número de fracasos. En ese caso, $\hat p = 9.9998\times 10^{-06}$, y el cálculo para la predicción de la probabilidad de $1^+$ fallas en los próximos 10.000 1-pbinom(0, size=10000, prob=9.9998e-06), produciendo 0.09516122, o $\aprox 10\%$.

27voto

ykh Puntos 108

Usted puede tomar un enfoque bayesiano. indicar la probabilidad de fallo por $\Theta$ y pensar en ello como una variable aleatoria. A priori, antes de ver los resultados de los experimentos, podría creer que $\Theta \sim U(0,1)$. Si usted confiar en los ingenieros para hacer que este producto confiable, tal vez usted puede tomar $\Theta \sim U(0,0.1)$ o así. Esto depende de usted. A continuación, puede utilizar el teorema de Bayes para calcular la distribución posterior de los $\theta$. Denotar el $A$ el caso de que usted ha observado ($n$ experimentos con cero errores).

$$ p(\Theta = \theta | A) = \frac{p (A | \Theta = \theta) p(\Theta = \theta )}{p(a)} = \frac{p (A |\theta) p(\theta )}{\int p (A |\theta) p(\theta )d\theta}. $$ Todo es simple: $\Theta$ es uniforme, por lo que $p(\theta)$ es una constante. Ya que se corre $n$ experimentos, $p(A | \theta)$ es simplemente la probabilidad de que no se éxitos en $n$ bernouli ensayos con probabilidad de éxito de $\theta$.

Una vez que usted tiene $p(\theta | A)$ eres de oro: se puede calcular la probabilidad de cualquier evento $B$ por integrateion: $\mathbb{P}(B) = \int p(B |\theta) p(\theta |a) d\theta$

A continuación, yo trabajo a través de una solución detallada, siguiendo el enfoque anterior. Voy a tomar un par de funciones rápidas de teclado estándar.

Deje que el antes de ser $U(0,1)$. Entonces: $$ p(\theta)\propto p(A|\theta) \cdot 1 = (1-\theta)^n. $$ La normalización de la constante $p(a) = \int p(A|\theta)p(\theta) d\theta$ se encuentra en $B(1,n+1)$ - ver páginas de wikipedia beta de la función y de la distribución beta. Así, $p(\theta) = \frac{(1-\theta)^n}{B(1,n+1)}$, que es una distribución beta con parámetros de $1, n+1$.

Indicar la probabilidad de que no fallas en $m$ productos en el próximo año por $B$. La probabilidad de que al menos uno de fallo es de $1 -\mathbb{P}( B )$. Entonces $$ 1- \mathbb{P}(B) =1 - \int (1-\theta)^m\frac{(1-\theta)^n}{B(1,n+1)}d\theta = \frac{B(1,n+m+1)}{B(1,n+1)} $$

que es de aproximadamente $0.1$, $n= 100.000, m = 10,000$. No es muy impresionante? Tomé una distribución uniforme de la probabilidad de fallo. Tal vez usted tiene mejor antes de la fe en sus ingenieros.

13voto

jldugger Puntos 7490

En lugar de calcular una probabilidad, ¿por qué no predecir cuántos productos puede fallar?

El modelado de las Observaciones

Hay $n=100000$ productos en el campo y otro de $m=10000$ en consideración. Asumir sus errores son independientes y constante con una probabilidad de p$$.

Podemos modelo de esta situación por medio de un experimento Binomial: de un cuadro de entradas con un desconocido proporción $p$ de "fracaso" entradas " y $1-p$ "éxito" de billetes, dibujar $m+n=110000$ entradas (con reemplazo, de modo que la probabilidad de error sigue siendo el mismo). El recuento de los fracasos, entre los primeros $n$ pasajes de dejar que sea $X$--y el recuento de los fracasos, entre los restantes $m$ boletos, llamar a que $Y$.

Enmarcar la Pregunta

En principio, $0\le X \le n$ y $0 \le Y\le m$ podría ser cualquier cosa. Lo que nos interesa es la posibilidad de que $Y = u$ dado que $X+Y=u$ (con $u$ a cualquier número en $\{0,1,\ldots, m\}$). Dado que los errores podrían ocurrir en cualquier lugar entre todos los de $n+m$ entradas, con cada configuración posible tener la misma oportunidad, se halla dividiendo el número de $u$-subconjuntos de $m$ las cosas por la cantidad de $u$-subconjuntos de todas las $n+m$ cosas:

$$p(u, n,m) = \Pr(Y = u\,|\, X+Y=u) = \frac{\binom{m}{u}}{\binom{n+m}{u}} \\= \frac{m(m-1)\cdots(m-u+1)}{(n+m)(n+m-1)\cdots(n+m-u+1)}.$$

Comparables se pueden utilizar fórmulas para el cálculo cuando $X=1, 2, \ldots.$

Un superior $1-\alpha$ predicción límite (UPL) para el número de fallos en los últimos $m$ boletos, $t_\alpha(X;n,m)$, es dada por la menor de $u$ (dependiendo de $X$) para que $p(u, n,m) \le \alpha$.

Interpretación

La UPL debe ser interpretado en términos del riesgo de uso de $t_\alpha$, tal como se evaluó antes de que $X$ o $Y$ se observa. En otras palabras, supongamos que esto es de hace un año y le piden que recomiende un procedimiento para predecir el número de fallos en los próximos $m$ productos una vez que los primeros $n$ se han observado. Su cliente le pide

¿Cuál es la probabilidad de que el procedimiento será poca frecuencia $Y$? No me refiero a que en el futuro después de que haya más datos, me refiero a ahora, porque tengo que tomar decisiones ahora y la única posibilidades tendré a mi disposición son los que se pueden calcular en este momento".

Su respuesta puede ser,

Justo ahora que la oportunidad no es mayor que $\alpha$, pero si vas a utilizar un menor de predicción, la probabilidad será de más de $\alpha$.

Resultados

Para $n=10^5$, $m=10^4$ y $X=0$, podemos calcular que

$$p(0,n,m)=1;\ p(1,n,m)=\frac{1}{11}\approx 0.091;\ p(2,n,m)=\frac{909}{109999}\approx 0.0083; \ldots$$

Por lo tanto, al haber observado $X=0$,

  • Por hasta $1-\alpha=90.9\%$ de confianza (es decir, cuando $9.1\%\le \alpha$), predecir hay en la mayoría de los $t_\alpha(0, n,m)=1$ fracaso en el siguiente $10,000$ productos.

  • Por hasta $99.2\%$ de confianza (es decir, cuando $0.8\%\le \alpha \lt 9.1\%$), predecir hay en la mayoría de los $t_\alpha(0, n,m)=2$ fallas en el siguiente $10,000$ productos.

  • Etc.


Comentarios

Cuándo y por qué este enfoque se aplican? Imagine que su compañía hace un montón de productos diferentes. Después de observar el rendimiento de $n$ de cada uno en el campo, le gusta producir garantías, tales como "completa sin costo de reemplazo de cualquier fallo en el plazo de un año." Por tener la predicción de los límites para el número de fallos, usted puede controlar el total de los costes de las garantías. Porque hacer muchos productos, y esperar los fallos debidos al azar a circunstancias fuera de su control, la experiencia de cada producto serán independientes. Tiene sentido para controlar el riesgo en el largo plazo. Cada de vez en cuando, usted podría tener que pagar más reclamaciones que se esperaba, pero la mayoría del tiempo usted tendrá que pagar menos. Si se paga más de lo anunciado, podría tener consecuencias desastrosas, establecerá $\alpha$ extremadamente pequeño (y es probable que el uso más sofisticado modelo de falla, también!). De lo contrario, si los costos son menores, entonces usted puede vivir con confianza baja (alta $\alpha$). Estos cálculos muestran cómo la confianza en el equilibrio y riesgos.

Tenga en cuenta que no tenemos que calcular el procedimiento completo $t$. Tenemos que esperar hasta que $X$ es observado y, a continuación, realizar los cálculos para cada $X$ ($X=0$), como se muestra arriba. En principio, sin embargo, nos podría haber llevado a cabo los cálculos para todos los posibles valores de $X$ en el principio.

Un enfoque Bayesiano (descrito en otras respuestas) es atractivo y funciona bien proporcionado los resultados no dependen mucho de la anterior. Por desgracia, cuando la tasa de fracaso es tan baja que muy pocos (o no fallas) se observa, los resultados son sensibles a la elección de antes.

10voto

farzad Puntos 4180

El siguiente es un Bayesiano de respuesta "más de 10.000 nuevos productos, cómo se espera que muchos fallar si todos los de la antigua 100,000 producido no fallar?", pero usted debe considerar la sensibilidad de los diferentes prioridades.

Suponga que $X_1,\dots,X_n$ son condicionalmente independientes e idénticamente distribuidas, dado $\Theta=\theta$ tales que $X_1\mid\Theta=\theta\sim\mathrm{Bernoulli}(\theta)$, y el uso de la conjugado antes $\Theta\sim\mathrm{Beta}(a,b)$, con $a,b>0$.

Por $m<n$, tenemos $$ \mathrm{E}\left[\sum_{i=m+1}^n X_i\;\Bigg\vert\; X_1=0,\dots X_m=0 \right] = \sum_{i=m+1}^n \mathrm{E}\left[ X_i\mediados de X_1=0,\dots X_m=0 \right] \, . $$

Por $m+1\leq i\leq$ n, tenemos $$ \begin{align} \mathrm{E}\left[X_i\mediados de X_1=0,\dots X_m=0\right] &= \Pr(X_i=1\mediados de X_1=0,\dots X_m=0) \\ &= \int_0^1 \Pr(X_i=1\mid \Theta=\theta) \,f_{\Theta\mediados de X_1,\dots,X_m}(\theta\mediados de 0,\dots,0) \,d\theta \\ &= \frac{\Gamma(m+a+b)}{\Gamma(m+a+b+1)} \frac{\Gamma(a+1)}{\Gamma(a)} = \frac{a}{m+a+b}\, , \end{align} $$ en el que hemos utilizado $\Theta\mediados de X_1=0,\dots,X_m=0\sim \mathrm{Beta}(a,m+b)$.

Conectar sus números, con un uniforme antes de ($a=1,b=1$) espera una tasa de error de alrededor de $10\%$, mientras que un Jeffreys-como antes ($a=1/2,b=1/2$) le da una tasa de error de cerca de $5\%$.

Este predictivo expectativa no parece un buen resumen, debido a que la capacidad de predicción de la distribución es muy desigual. Podemos ir más allá y calcular la distribución predictiva. Desde $$ \sum_{i=m+1}^n X_i \;\Bigg\vert\; \Theta=\theta \sim \mathrm{Bin}(n-m+2,\theta) \, , $$ acondicionado como hicimos antes de tener $$ \begin{align} \&Pr\left(\sum_{i=m+1}^n X_i=t \;\Bigg\vert\; X_1=0,\dots X_m=0\right) = \\ &\qquad\qquad\qquad\qquad\binom{n-m+2}{t} \frac{\Gamma(m+a+b)}{\Gamma(a)\Gamma(m+b)} \frac{\Gamma(t+a)\Gamma(n-t+2)}{\Gamma(n+un+2)} \, , \end{align} $$ por $t=0,1,\dots,n-m+2$.

Voy a terminar más tarde, el cómputo de $95\%$ predictivo intervalo.

7voto

Aksakal Puntos 11351

El uso de Laplace del amanecer problema de enfoque, podemos obtener la probabilidad de que un producto falle dentro de un año $$p=\frac{1}{100000+1}$$. Luego, la probabilidad de que de $n$ de nuevos productos ninguna falla dentro de un año es de $$(1-p)^n$$ Por lo tanto, la probabilidad de que al menos un producto de $n$ se producirá en el próximo año es de $$1-\left(1-\frac{1}{100001}\right)^{n}$$ Para $n=10000$ el valor es de $P_{10000}\approx 0.095$. En whuber el caso de $P_{200000}\approx 0.87$, bastante alto, de hecho.

Por supuesto, usted debe mantener la actualización de sus datos, mientras más productos se venden, eventualmente, se producirá un error.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X