5 votos

Sobre la estimación del número de muestras iid

Supongamos que tenemos muestras iid $X_1,\cdots,X_n$ con el número de muestras $n$ desconocido, pero puedo tomar una muestra de su suma $m=\sum_{i=1}^n X_i$ . Supongamos además que $\mathbb{E}[X_i]=\mu$ et $Var[X_t]=\sigma^2$ con ambos $\mu$ et $\sigma$ conocido.

Si quiero estimar el número de muestras $n$ intuitivamente, uno encontraría el entero más cercano de $\frac{m}{\mu}$ (o hay alguna forma mejor de estimar $n$ ?) Si quiero que la estimación sea fiable en un 95%, supongo que debería haber algunos requisitos para la varianza $\sigma^2$ y el número de muestra real $n$ .

Mi intento:

  1. Supongamos que $n$ es enorme y según el teorema del límite central, la distribución de $\frac{m}{n}$ es aproximadamente $\mathcal{N}(\mu,\frac{\sigma^2}{n})$ . Pero tengo un problema con el manejo de la "función de redondeo". Y probablemente el teorema central del límite no es apropiado para esta circunstancia, ya que dice lo que sucedería para $n$ va al infinito, pero lo que estamos tratando de hacer aquí es exactamente estimar $n$ .

  2. Intenté utilizar la desigualdad de Hoeffding, pero como $n$ es estocástico aquí, no estoy seguro de que la desigualdad de Hoeffding sea adecuada para esta circunstancia.

1voto

Jacob Maibach Puntos 156

Puede que esta no sea la respuesta más útil, ya que aún no hay respuestas, pensé que es mejor que nada.

Si el $X_{i}$ son $N(\mu, \sigma^{2})$ la suma $m$ se distribuye como $N(n\mu, n\sigma^{2})$ por lo que el problema de estimar $n$ es equivalente al problema de estimar $\theta$ para $Y \sim N(\theta, k\theta)$ para la proporcionalidad conocida $k$ .

Como se señala en los comentarios, un enfoque es el estimador de máxima verosimilitud, que es bastante eficiente en general. La log-verosimilitud es \begin{align*} L(\theta | y) &= -\log(k\theta) - \frac{1}{2}\left( \frac{y - \theta}{\sqrt{k\theta}}\right)^{2} + \mathrm{const} \\ &= -\log(\theta) - \frac{1}{2}\left(\frac{y^{2}}{k\theta} - 2 \frac{y}{k} + \frac{\theta}{k} \right) + \mathrm{const} \end{align*} La derivada con respecto al $\theta$ es $$ L'(\theta|y) = -\theta^{-1} + \frac{y^{2}}{k} - \frac{1}{2k},$$ por lo que el estimador de máxima verosimilitud es $$ \hat{\theta} = \frac{2y^{2} - 1}{2k} = \frac{y^{2}}{k} - \frac{1}{2k}.$$ Desde $k=\sigma^{2}/\mu$ et $n = \theta/\mu$ , $$ \hat{n} = \frac{m^{2}}{\sigma^{2}} - \frac{1}{2\sigma^{2}}. $$ Curiosamente, se trata básicamente de un estimador por el método de los momentos como el que has sugerido, pero utilizando el segundo momento en lugar del primero.

Si fuera insesgado, sería un estimador insesgado de mínima varianza (ya que los estimadores de máxima verosimilitud satisfacen el límite de Cramer-Rao), pero desgraciadamente no lo es ya que $$ \mathrm{E}[y^{2}] = \theta^{2} + k\theta$$ implica $$ \mathbb{E}[\hat{\theta}] - \theta = \frac{\theta^{2} - 1/2}{k}.$$ Sin embargo, es probable que siga siendo razonablemente eficiente.

El intervalo de confianza es un poco más difícil, ya que no se puede utilizar la distribución exacta de $\hat{n}$ que no es central $\chi^{2}$ con grados de libertad $n$ . Sin embargo, si $n$ es grande, una aproximación normal puede ser precisa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X