He llevado a cabo un experimento de simulación donde $n$ $N$ elementos $x_i$ fueron dibujados con reemplazo con probabilidades desiguales $z_i$ a partir de una población finita. (Si importa: $z_i = 1/(Nx_i)$ en mi caso, pero tal vez hay más general de los resultados.)
Entonces, me calcula los totales de la población de los indicadores $$ y_i := \begin{cases}1: y_i = m \\ 0: \text{otherwise}\end{casos} $$ para cada una de las $m$ en dos formas:
- Mediante la aplicación de los Hansen-Hurwitz estimador: $\hat{Y}_I = n^{-1} \sum_i (y_i/z_i)$.
- Por primera eliminación de los duplicados de la muestra y, a continuación, aplicar el estimador Horvitz-Thompson para la selección probabilites $\pi_i = 1 - (1 - n/N)^{y_i}$ (que es la probabilidad de seleccionar el elemento $i$ al menos una vez, es decir, uno menos la probabilidad de no seleccionar a todos, approximable por $x_i$ ensayos de Bernoulli con probabilidad de éxito $1 - n/N$ cada uno, si $x_i \ll n$): $\hat{Y}_{II} = \sum_i(y_i/\pi_i)$.
Esto fue repetido 1000 veces.
Yo en comparación de las estimaciones con los verdaderos valores y observó la relación entre la estimación y el valor verdadero. Puedo ver claramente de mis experimentos que la segunda estimación es mejor en términos de la varianza muestral. Cómo apoyar esta con resultados teóricos?
De Cochran (1977), en el Capítulo 9, veo que la varianza de la HH como estimador de $$ V(\hat{Y}_I) = n^{-1}\sum_i^N z_i (y_i/z_i - Y)^2 $$ y que de la HT estimador como $$ V(\hat{Y}_{II}) = \sum_i^N \frac{1-\pi_i}{\pi_i}y_i^2 + 2\sum_i^N\sum_{j>i}^N \frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}y_iy_j $$
pero tengo problemas al aplicar esto a mi caso. En primer lugar, significa que para la HH de la varianza depende de $Y$ y para el HT no? Segundo, yo asumiría $\pi_{ij} = \pi_i\pi_j$ desde la inclusión de elementos es independiente y, a continuación, el segundo término de la HT varianza se desvanece -- o estoy equivocado?
Agradezco cualquier ayuda.