4 votos

Cómo tomar en cuenta la incertidumbre en el número de eventos

Supongamos que generar un conjunto de eventos $X_{i}$ $i = 1,2 \dots N$ y supongamos que cada evento sea un éxito o un fracaso, es decir,. $X_{i} = 0, 1$. Si $N$ es fijo, el MLE para la probabilidad de éxito es sólo $$\hat{p} = \frac{1}{N}\sum_{i = 1}^{N} X_{i}$$ and the variance of the MLE can be estimated as $$V(\hat{p}) = \frac{\hat{p}(1 - \hat{p})}N.$$ But now suppose that $$N \sim \text{Poisson}(\lambda_N),$$ where $\lambda_{N}$ is fairly large, so if we need to, this could be approximated as $$N \sim \text{Normal}\left(\mu = \lambda_{N}, \sigma^2 = \lambda_{N}\right).$$ The MLE is still just $$\hat{p} = \frac{1}{N}\sum_{i = 1}^{N} X_{i}$$ but the variance is increased. What I want to know is how to calculate the new variance of $\hat{p}$ by taking into account the uncertainty on $N$. I tried some error propagation on $$ N, pero no puedo reproducir los resultados numéricos.

3voto

BruceET Puntos 7117

La fórmula para la varianza de 'un aleatoria suma de variables aleatorias' es dado que en muchos de probabilidad de textos. Se deriva acondicionado sugerido por @Augustin. Si $X_i, \dots, X_N$ son iid y $N$ es independiente de la $X$'s, entonces la suma de $S$ varianza $$V(S) = E(N)V(X) + V(N)[E(X)]^2.$$ A grandes rasgos, el segundo término expresa el adicional de variabilidad debido a random $N$ respecto fijo $n$. Como es de esperar, $E(S) = E(N)E(X).$

Aviso a las unidades de la fórmula para $V(S).$ Términos de $N$ números puros. Términos de $X$ tiene el cuadrado de las unidades para que coincida con las unidades de de $S$.

En muchos casos, una aproximación normal para $S$ da buenos resultados. Si el $X$'s son binomial, como en su caso, la aproximación normal debería funcionar bastante bien si $E(N)$ es moderadamente grande. (Pero yo no confiaría si $X$'s son extremadamente sesgada con colas largas, como para exponencial, a menos que $E(N)$ es grande).

En los casos prácticos, la simulación es un fácil de programar la opción--si sólo como un cheque sobre la exactitud de una aproximación normal. (Dependiendo de la el lenguaje utilizado, usted podría tener que hacer explícito alojamiento para los casos donde $N = 0$.)

Aquí hay una simulación en R de 100.000 experimentos con $N \sim Pois(10)$ y $X_i \sim Binom(1, 1/2) = Bernoulli(1/2).$ Como el histograma muestra, el ajuste normal no es excelente debido a que la distribución de Poisson significa que es relativamente pequeño.

NOTA: Los puntos oscuros en la cima de las barras de histograma son para $Pois(5)$, cual es la exacta distribución de $S$ en este particular caso. Aquí $S$ es simplemente $N$ con la mitad de sus realizaciones filtran al azar. Este resultado puede ser establecido analíticamente usando momento de generación de funciones. (Imaginar delgado papel de plomo bloqueo de la mitad de las partículas que se emiten a partir de un fragmento de de uranio. Qué pasa todavía de Poisson.)

 m = 10^5;  s = numeric(m)
 for (i in 1:m) {
   n = rpois(1, 10)
   s[i] = sum(rbinom(n, 1, .5)) }
 mean(s);  sd(s)
 ##  4.99118  # approx E(S) = 5
 ##  2.231150 # approx SD(S), where V(S) = 5
 sqrt(10*.25 + 10*.25)
 ##  2.236068 # exact SD(S)

 mean(s < 5)
 ## 0.4425    # simulated P(S < 5)
 pnorm(4.5, 5, sqrt(5))
 ## 0.4115316 # norm approx P(S < 5)

enter image description here

ADDENDUM: OP parece interesado en la distribución de $S/N$ (ver Comentarios). Aquí está histograma de código ligeramente alterados para conservar los valores de ambos $S$ $N$ en cada iteración.

enter image description here

0voto

Anthony Shaw Puntos 858

La varianza de la Suma de $\boldsymbol{n}$ Donde $\boldsymbol{n}$ es Variable

Para completar el debate, creo que sería bueno incluir una derivación de la fórmula de la varianza donde $n$ es variable, para aquellos que no tienen acceso a un texto adecuado. $\newcommand{\E}{\operatorname{E}}\newcommand{\Var}{\operatorname{Var}}$

Para una fija $n$, tenemos $$ \E\!\a la izquierda[\sum_{k=1}^nX_k\right]=n\E[X]\etiqueta{1} $$ y, en uso $\Var[X]=\E\!\left[X^2\right]-\E[X]^2$, obtenemos $$ \begin{align} \E\left[\left(\sum_{k=1}^nX_k\right)^2\right] &=n\E\!\left[X^2\right]+(n^2-n)\E[X]^2\\ &=n\Var[X]+n^2\E[X]^2\tag{2} \end{align} $$ Teniendo la expectativa de $(1)$ $n$ rendimientos $$ \E\!\a la izquierda[\sum_{k=1}^nX_k\right]=\E[n]\E[X]\etiqueta{3} $$ y, con el hecho de que $\E\!\left[n^2\right]=\Var[n]+\E[n]^2$, teniendo la expectativa de $(2)$ $n$ da $$ \begin{align} \E\left[\left(\sum_{k=1}^nX_k\right)^2\right] &=\E[n]\Var[X]+\E\!\left[n^2\right]\E[X]^2\\ &=\E[n]\Var[X]+\Var[n]\E[X]^2+\E[n]^2\E[X]^2\tag{4} \end{align} $$ Por lo tanto, $$ \begin{align} \mathrm{Var}\left[\sum_{k=1}^nX_k\right] &=\E\left[\left(\sum_{k=1}^nX_k\right)^2\right]-\E\!\left[\sum_{k=1}^nX_k\right]^2\\[6pt] &=\bbox[5px,border:2px solid #C0A000]{\E[n]\Var[X]+\Var[n]\E[X]^2}\tag{5} \end{align} $$


La varianza de la Media de $\boldsymbol{n}$ Donde $\boldsymbol{n}$ es Variable

Creo que no he entendido la pregunta, antes de la última edición. Parece que usted está buscando para la varianza de $\frac1n\sum\limits_{k=1}^nX_k$ donde $n$ es variable. Si ese es el caso, podemos seguir el mismo método anterior:

Para una fija $n$, tenemos $$ \E\!\a la izquierda[\frac1n\sum_{k=1}^nX_k\right]=\E[X]\etiqueta{6} $$ y, en uso $\Var[X]=\E\!\left[X^2\right]-\E[X]^2$, obtenemos $$ \begin{align} \E\left[\left(\frac1n\sum_{k=1}^nX_k\right)^2\right] &=\frac1n\E\!\left[X^2\right]+\left(1-\frac1n\right)\E[X]^2\\ &=\frac1n\Var[X]+\E[X]^2\tag{7} \end{align} $$ Teniendo la expectativa de $(6)$ $n$ rendimientos $$ \E\!\a la izquierda[\frac1n\sum_{k=1}^nX_k\right]=\E[X]\etiqueta{8} $$ y teniendo la expectativa de $(7)$ $n$ da $$ \E\left[\left(\frac1n\sum_{k=1}^nX_k\right)^2\right] =\E\!\a la izquierda[\frac1n\right]\Var[X]+\E[X]^2\etiqueta{9} $$ Por lo tanto, $$ \begin{align} \mathrm{Var}\!\left[\frac1n\sum_{k=1}^nX_k\right] &=\E\left[\left(\frac1n\sum_{k=1}^nX_k\right)^2\right]-\E\!\left[\frac1n\sum_{k=1}^nX_k\right]^2\\[6pt] &=\bbox[5px,border:2px solid #C0A000]{\E\!\left[\frac1n\right]\Var[X]}\tag{10} \end{align} $$ Tenga en cuenta que por Cauchy-Schwarz, tenemos $$ \E\!\a la izquierda[\frac1n\right]\ge\frac1{\E[n]}\etiqueta{11} $$ Desde una distribución de Poisson permite a $n=0$ y la media de $0$ elementos no está bien definido, vamos a $n-1$ tiene una distribución de Poisson con una media de $N-1$, de modo que todavía tenemos $\mathrm{E}[n]=N$. $$ \begin{align} \E\!\left[\frac1n\right] &=e^{-N+1}\sum_{k=0}^\infty\frac{(N-1)^k}{(k+1)\,k!}\\ &=\frac{e^{-N+1}}{N-1}\sum_{k=0}^\infty\frac{(N-1)^{k+1}}{(k+1)!}\\ &=\frac{1-e^{-N+1}}{N-1}\\[6pt] &\sim\frac1{N-1}\tag{12} \end{align} $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X