7 votos

La varianza muestral es reducido cuando la eliminación de duplicados -- ¿por qué?

He llevado a cabo un experimento de simulación donde $n$ $N$ elementos $x_i$ fueron dibujados con reemplazo con probabilidades desiguales $z_i$ a partir de una población finita. (Si importa: $z_i = 1/(Nx_i)$ en mi caso, pero tal vez hay más general de los resultados.)

Entonces, me calcula los totales de la población de los indicadores $$ y_i := \begin{cases}1: y_i = m \\ 0: \text{otherwise}\end{casos} $$ para cada una de las $m$ en dos formas:

  1. Mediante la aplicación de los Hansen-Hurwitz estimador: $\hat{Y}_I = n^{-1} \sum_i (y_i/z_i)$.
  2. Por primera eliminación de los duplicados de la muestra y, a continuación, aplicar el estimador Horvitz-Thompson para la selección probabilites $\pi_i = 1 - (1 - n/N)^{y_i}$ (que es la probabilidad de seleccionar el elemento $i$ al menos una vez, es decir, uno menos la probabilidad de no seleccionar a todos, approximable por $x_i$ ensayos de Bernoulli con probabilidad de éxito $1 - n/N$ cada uno, si $x_i \ll n$): $\hat{Y}_{II} = \sum_i(y_i/\pi_i)$.

Esto fue repetido 1000 veces.

Yo en comparación de las estimaciones con los verdaderos valores y observó la relación entre la estimación y el valor verdadero. Puedo ver claramente de mis experimentos que la segunda estimación es mejor en términos de la varianza muestral. Cómo apoyar esta con resultados teóricos?

De Cochran (1977), en el Capítulo 9, veo que la varianza de la HH como estimador de $$ V(\hat{Y}_I) = n^{-1}\sum_i^N z_i (y_i/z_i - Y)^2 $$ y que de la HT estimador como $$ V(\hat{Y}_{II}) = \sum_i^N \frac{1-\pi_i}{\pi_i}y_i^2 + 2\sum_i^N\sum_{j>i}^N \frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}y_iy_j $$

pero tengo problemas al aplicar esto a mi caso. En primer lugar, significa que para la HH de la varianza depende de $Y$ y para el HT no? Segundo, yo asumiría $\pi_{ij} = \pi_i\pi_j$ desde la inclusión de elementos es independiente y, a continuación, el segundo término de la HT varianza se desvanece -- o estoy equivocado?

Agradezco cualquier ayuda.

2voto

Ted Puntos 854

No entiendo la motivación para la eliminación de duplicados y usando el HT estimador sobre el particular, las probabilidades de que usted está usando.

Más adecuada es la de aceptar que el dibujo es con reemplazo y, por lo tanto hay duplicados (¿por qué habría de ser esto un problema? - normalmente hace que las cosas más simples); y el uso correcto de las probabilidades $z_i$ en el HT estimador.

Editar:

Un par de pensamientos

  1. Probablemente también necesario aplicar un factor de corrección de población finita.

  2. Mediante la eliminación de los duplicados que son, en efecto, acaba de mudarse a un pequeño tamaño muestral y cambiando de muestreo con reemplazo para muestreo sin reemplazo.

Editar por StasK:

Continuando con el punto 2: lo que se obtiene es a veces llamado de Poisson de la muestra. Estoy bastante seguro de que los pares probabilidades de selección de mal, y $\pi_{ij} \neq \pi_i \pi_j$ en este caso. En general, el muestreo sin reposición y con probabilidades desiguales, es TREMENDAMENTE complicado. Brewer y Hanif (1982) lista de cerca de 50 métodos para hacer esto correctamente, aunque sólo alrededor de una docena de estos métodos de los pares de las probabilidades de selección son manejables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X