Supongamos que generar un conjunto de eventos $X_{i}$ $i = 1,2 \dots N$ y supongamos que cada evento sea un éxito o un fracaso, es decir,. $X_{i} = 0, 1$. Si $N$ es fijo, el MLE para la probabilidad de éxito es sólo $$\hat{p} = \frac{1}{N}\sum_{i = 1}^{N} X_{i}$$ and the variance of the MLE can be estimated as $$V(\hat{p}) = \frac{\hat{p}(1 - \hat{p})}N.$$ But now suppose that $$N \sim \text{Poisson}(\lambda_N),$$ where $\lambda_{N}$ is fairly large, so if we need to, this could be approximated as $$N \sim \text{Normal}\left(\mu = \lambda_{N}, \sigma^2 = \lambda_{N}\right).$$ The MLE is still just $$\hat{p} = \frac{1}{N}\sum_{i = 1}^{N} X_{i}$$ but the variance is increased. What I want to know is how to calculate the new variance of $\hat{p}$ by taking into account the uncertainty on $N$. I tried some error propagation on $$ N, pero no puedo reproducir los resultados numéricos.
Respuestas
¿Demasiados anuncios?La fórmula para la varianza de 'un aleatoria suma de variables aleatorias' es dado que en muchos de probabilidad de textos. Se deriva acondicionado sugerido por @Augustin. Si $X_i, \dots, X_N$ son iid y $N$ es independiente de la $X$'s, entonces la suma de $S$ varianza $$V(S) = E(N)V(X) + V(N)[E(X)]^2.$$ A grandes rasgos, el segundo término expresa el adicional de variabilidad debido a random $N$ respecto fijo $n$. Como es de esperar, $E(S) = E(N)E(X).$
Aviso a las unidades de la fórmula para $V(S).$ Términos de $N$ números puros. Términos de $X$ tiene el cuadrado de las unidades para que coincida con las unidades de de $S$.
En muchos casos, una aproximación normal para $S$ da buenos resultados. Si el $X$'s son binomial, como en su caso, la aproximación normal debería funcionar bastante bien si $E(N)$ es moderadamente grande. (Pero yo no confiaría si $X$'s son extremadamente sesgada con colas largas, como para exponencial, a menos que $E(N)$ es grande).
En los casos prácticos, la simulación es un fácil de programar la opción--si sólo como un cheque sobre la exactitud de una aproximación normal. (Dependiendo de la el lenguaje utilizado, usted podría tener que hacer explícito alojamiento para los casos donde $N = 0$.)
Aquí hay una simulación en R de 100.000 experimentos con $N \sim Pois(10)$ y $X_i \sim Binom(1, 1/2) = Bernoulli(1/2).$ Como el histograma muestra, el ajuste normal no es excelente debido a que la distribución de Poisson significa que es relativamente pequeño.
NOTA: Los puntos oscuros en la cima de las barras de histograma son para $Pois(5)$, cual es la exacta distribución de $S$ en este particular caso. Aquí $S$ es simplemente $N$ con la mitad de sus realizaciones filtran al azar. Este resultado puede ser establecido analíticamente usando momento de generación de funciones. (Imaginar delgado papel de plomo bloqueo de la mitad de las partículas que se emiten a partir de un fragmento de de uranio. Qué pasa todavía de Poisson.)
m = 10^5; s = numeric(m)
for (i in 1:m) {
n = rpois(1, 10)
s[i] = sum(rbinom(n, 1, .5)) }
mean(s); sd(s)
## 4.99118 # approx E(S) = 5
## 2.231150 # approx SD(S), where V(S) = 5
sqrt(10*.25 + 10*.25)
## 2.236068 # exact SD(S)
mean(s < 5)
## 0.4425 # simulated P(S < 5)
pnorm(4.5, 5, sqrt(5))
## 0.4115316 # norm approx P(S < 5)
ADDENDUM: OP parece interesado en la distribución de $S/N$ (ver Comentarios). Aquí está histograma de código ligeramente alterados para conservar los valores de ambos $S$ $N$ en cada iteración.
La varianza de la Suma de $\boldsymbol{n}$ Donde $\boldsymbol{n}$ es Variable
Para completar el debate, creo que sería bueno incluir una derivación de la fórmula de la varianza donde $n$ es variable, para aquellos que no tienen acceso a un texto adecuado. $\newcommand{\E}{\operatorname{E}}\newcommand{\Var}{\operatorname{Var}}$
Para una fija $n$, tenemos $$ \E\!\a la izquierda[\sum_{k=1}^nX_k\right]=n\E[X]\etiqueta{1} $$ y, en uso $\Var[X]=\E\!\left[X^2\right]-\E[X]^2$, obtenemos $$ \begin{align} \E\left[\left(\sum_{k=1}^nX_k\right)^2\right] &=n\E\!\left[X^2\right]+(n^2-n)\E[X]^2\\ &=n\Var[X]+n^2\E[X]^2\tag{2} \end{align} $$ Teniendo la expectativa de $(1)$ $n$ rendimientos $$ \E\!\a la izquierda[\sum_{k=1}^nX_k\right]=\E[n]\E[X]\etiqueta{3} $$ y, con el hecho de que $\E\!\left[n^2\right]=\Var[n]+\E[n]^2$, teniendo la expectativa de $(2)$ $n$ da $$ \begin{align} \E\left[\left(\sum_{k=1}^nX_k\right)^2\right] &=\E[n]\Var[X]+\E\!\left[n^2\right]\E[X]^2\\ &=\E[n]\Var[X]+\Var[n]\E[X]^2+\E[n]^2\E[X]^2\tag{4} \end{align} $$ Por lo tanto, $$ \begin{align} \mathrm{Var}\left[\sum_{k=1}^nX_k\right] &=\E\left[\left(\sum_{k=1}^nX_k\right)^2\right]-\E\!\left[\sum_{k=1}^nX_k\right]^2\\[6pt] &=\bbox[5px,border:2px solid #C0A000]{\E[n]\Var[X]+\Var[n]\E[X]^2}\tag{5} \end{align} $$
La varianza de la Media de $\boldsymbol{n}$ Donde $\boldsymbol{n}$ es Variable
Creo que no he entendido la pregunta, antes de la última edición. Parece que usted está buscando para la varianza de $\frac1n\sum\limits_{k=1}^nX_k$ donde $n$ es variable. Si ese es el caso, podemos seguir el mismo método anterior:
Para una fija $n$, tenemos $$ \E\!\a la izquierda[\frac1n\sum_{k=1}^nX_k\right]=\E[X]\etiqueta{6} $$ y, en uso $\Var[X]=\E\!\left[X^2\right]-\E[X]^2$, obtenemos $$ \begin{align} \E\left[\left(\frac1n\sum_{k=1}^nX_k\right)^2\right] &=\frac1n\E\!\left[X^2\right]+\left(1-\frac1n\right)\E[X]^2\\ &=\frac1n\Var[X]+\E[X]^2\tag{7} \end{align} $$ Teniendo la expectativa de $(6)$ $n$ rendimientos $$ \E\!\a la izquierda[\frac1n\sum_{k=1}^nX_k\right]=\E[X]\etiqueta{8} $$ y teniendo la expectativa de $(7)$ $n$ da $$ \E\left[\left(\frac1n\sum_{k=1}^nX_k\right)^2\right] =\E\!\a la izquierda[\frac1n\right]\Var[X]+\E[X]^2\etiqueta{9} $$ Por lo tanto, $$ \begin{align} \mathrm{Var}\!\left[\frac1n\sum_{k=1}^nX_k\right] &=\E\left[\left(\frac1n\sum_{k=1}^nX_k\right)^2\right]-\E\!\left[\frac1n\sum_{k=1}^nX_k\right]^2\\[6pt] &=\bbox[5px,border:2px solid #C0A000]{\E\!\left[\frac1n\right]\Var[X]}\tag{10} \end{align} $$ Tenga en cuenta que por Cauchy-Schwarz, tenemos $$ \E\!\a la izquierda[\frac1n\right]\ge\frac1{\E[n]}\etiqueta{11} $$ Desde una distribución de Poisson permite a $n=0$ y la media de $0$ elementos no está bien definido, vamos a $n-1$ tiene una distribución de Poisson con una media de $N-1$, de modo que todavía tenemos $\mathrm{E}[n]=N$. $$ \begin{align} \E\!\left[\frac1n\right] &=e^{-N+1}\sum_{k=0}^\infty\frac{(N-1)^k}{(k+1)\,k!}\\ &=\frac{e^{-N+1}}{N-1}\sum_{k=0}^\infty\frac{(N-1)^{k+1}}{(k+1)!}\\ &=\frac{1-e^{-N+1}}{N-1}\\[6pt] &\sim\frac1{N-1}\tag{12} \end{align} $$