La formalización de gung sugerencia, se puede estimar la media de la muestra por el inverso de la probabilidad de ponderación, también conocido como el estimador Horvitz-Thompson. Es admisible en la clase de la imparcialidad de los peritos.
El H-T estimador puede ser utilizado para la estimación de la suma a $S = \sum_{i=1}^n y_i$ de los valores de la muestra en una población con una submuestra aleatoria, así como la media. Vamos a examinar la suma estimador de la primera. Para modelar el submuestreo, vamos a $B_i \sim \text{Bernoulli}(p_i)$. Entonces la suma de la submuestra aleatoria es
$$\sum_{i=1}^n y_i B_i$$
el H-T estimador $\hat{S}$ de la población de la suma es
$$\hat{S} = \sum_{i=1}^n y_i B_i / p_i$$
Es fácil ver que $\hat{S}$ es imparcial:
$$\mathbb{E}[\hat{S}] = \sum_{i=1}^n y_i \mathbb{E}[B_i] / p_i = \sum_{i=1}^n y_i p_i / p_i = S$$
Para la estimación de la media de $S/n$ simplemente podemos utilizar $\hat{S}/n$ si $n$ es conocido. De lo contrario, $n$ puede ser estimada a partir de la inversa de la probabilidad de ponderación una vez más:
$$\hat{n} = \sum_{i=1}^n B_i/p_i$$
Tanto en $\hat{S}$ $\hat{n}$ son imparciales, sino $\hat{S}/\hat{n}$ puede tener algún sesgo. Sin embargo, debe ser pequeña cuando la varianza de numerador y denominador son bien controlados - por ejemplo, en la gran muestra de límite, siempre que el $p_i$ no son demasiado pequeños.
He aquí algunas R de código que muestra cómo el H-T significa estimador de obras. Asumimos $n$ es conocido y calcular el $\hat{S}/n$, pero es fácil de hacer es calcular el $\hat{S}/\hat{n}$ lugar.
n=1000
pop = 66+2*rnorm(n)
incl_prob = runif(n)
nTrial = 500
ht_est=numeric(nTrial)
for (i in 1:nTrial) {
included = as.logical(rbinom(n,1,incl_prob))
ht_est[i] = 1/n * sum(pop[included] / incl_prob[included])
}
print(paste0('population mean: ',round(mean(pop),2)))
print(paste0('average Horvitz-Thompson estimate: ',round(mean(ht_est),2)))
print(paste0('standard error in Horvitz-Thompson estimate: ',round(sd(ht_est),2)))
Este código hace que una sola muestra de población de 1000 sujetos, las submuestras de la población con un sujeto dependiente de la probabilidad, a continuación, calcula el H-T estimador. Se hace el submuestreo & H-T estimación de 500 veces en la misma población para ayudar a ilustrar el estimador de la exactitud. Aquí se muestra un ejemplo de ejecución:
[1] "population mean: 65.94"
[1] "average Horvitz-Thompson estimate: 65.9"
[1] "standard error in Horvitz-Thompson estimate: 5.09"
El primer número es la media de población. La población es aleatoria, sino que se genera una vez al principio del código y se fija a partir de entonces. Cada uno de los 500 estimación de ensayos toma una dirección diferente submuestra aleatoria a partir de esta población.
El segundo número es el promedio de 500 Horvitz-Thompson estimaciones de la media de población, cada uno de diferentes submuestra aleatoria pop[included]
de la misma población fija pop
. Observe cuán cerca se encuentra de la media de población, lo que ilustra el imparcial de la propiedad de la H-T estimador.
El tercer número es la desviación estándar de los 500 estimaciones. Es una estimación del error estándar para cualquier H-T estimación de la media de población.
Usted podría preguntarse por qué el promedio de H-T estimación mucho más cerca de la media de la población es que el error estándar podría sugerir. Esto es porque nos han hecho un promedio de 500 H-T estimaciones juntos, y el error en estas estimaciones es aproximadamente el $\sigma / \sqrt{T}$ donde $\sigma$ es la desviación estándar (en este caso 5.09) y $T$ es el número de ensayos. En nuestro código de $T = 500$$\sigma / \sqrt{T} = 0.22$, que está en el orden de la real desviación, $0.4$, entre la población media y el promedio de 500 H-T estimaciones.