6 votos

La estimación de la media de la muestra a partir de una muestra sesgada (cuyo proceso generativo es conocida)

Estoy trabajando en un problema en el que estoy tratando de estimar alguna de las propiedades de un conjunto de datos a partir de un pequeño no uniforme de la muestra. (Tomemos el ejemplo de la media de la población es porque es simple.)

Formalmente, supongamos que tenemos los datos de los puntos de $i_1, i_2 \cdots i_n$ cada una asociada con un valor real de puntuación $s_1, s_2, \cdots s_n$. Por lo $i_k$ podría representar las diferentes personas y $s_k$ podría ser su altura, por ejemplo.

Para generar una estimación de la muestra, nos da que cada punto de datos $i_k$ también se conoce la probabilidad de $0 \leq p_k \leq 1$, lo que denota la probabilidad de que la membresía en la muestra. Para generar una muestra $S$, comenzamos con un conjunto vacío y para $k = 1 \cdots n$, elemento $i_k$ $S$ con una probabilidad de $p_k$ y rechazó lo contrario. Vamos a suponer también que $p_k$ es independiente de $s_1 \cdots s_n$, y que el perito se conoce con exactitud las probabilidades de pertenencia a $p_1 \cdots p_n$.

Ahora, mi tarea es tener una estimación insesgada de la población $$\frac{1}{n}\sum_n s_n$$ from the sample $S$. My question is, is it possible to get an unbiased sample of the population mean given $S$ and the above information? If so, how should I do this? Intuitively I think the weights of the items in $S$ have to be adjusted to reflect their differing probabilities of membership but I'm not sure if $$ n es importante (se desconoce).

Edit: En este caso, no sé $n$, por lo que hay maneras de conseguir alrededor de eso? Horvitz-Thompson parece exigir $n$ para una estimación. También no necesariamente sé todas las $p_k$, sólo las que están en la muestra.

9voto

Charan Puntos 11

La formalización de gung sugerencia, se puede estimar la media de la muestra por el inverso de la probabilidad de ponderación, también conocido como el estimador Horvitz-Thompson. Es admisible en la clase de la imparcialidad de los peritos.

El H-T estimador puede ser utilizado para la estimación de la suma a $S = \sum_{i=1}^n y_i$ de los valores de la muestra en una población con una submuestra aleatoria, así como la media. Vamos a examinar la suma estimador de la primera. Para modelar el submuestreo, vamos a $B_i \sim \text{Bernoulli}(p_i)$. Entonces la suma de la submuestra aleatoria es $$\sum_{i=1}^n y_i B_i$$ el H-T estimador $\hat{S}$ de la población de la suma es $$\hat{S} = \sum_{i=1}^n y_i B_i / p_i$$ Es fácil ver que $\hat{S}$ es imparcial: $$\mathbb{E}[\hat{S}] = \sum_{i=1}^n y_i \mathbb{E}[B_i] / p_i = \sum_{i=1}^n y_i p_i / p_i = S$$ Para la estimación de la media de $S/n$ simplemente podemos utilizar $\hat{S}/n$ si $n$ es conocido. De lo contrario, $n$ puede ser estimada a partir de la inversa de la probabilidad de ponderación una vez más: $$\hat{n} = \sum_{i=1}^n B_i/p_i$$ Tanto en $\hat{S}$ $\hat{n}$ son imparciales, sino $\hat{S}/\hat{n}$ puede tener algún sesgo. Sin embargo, debe ser pequeña cuando la varianza de numerador y denominador son bien controlados - por ejemplo, en la gran muestra de límite, siempre que el $p_i$ no son demasiado pequeños.

He aquí algunas R de código que muestra cómo el H-T significa estimador de obras. Asumimos $n$ es conocido y calcular el $\hat{S}/n$, pero es fácil de hacer es calcular el $\hat{S}/\hat{n}$ lugar.

n=1000
pop = 66+2*rnorm(n)
incl_prob = runif(n)

nTrial = 500
ht_est=numeric(nTrial)
for (i in 1:nTrial) {
  included = as.logical(rbinom(n,1,incl_prob))
  ht_est[i] = 1/n * sum(pop[included] / incl_prob[included])
}
print(paste0('population mean: ',round(mean(pop),2)))
print(paste0('average Horvitz-Thompson estimate: ',round(mean(ht_est),2)))
print(paste0('standard error in Horvitz-Thompson estimate: ',round(sd(ht_est),2)))

Este código hace que una sola muestra de población de 1000 sujetos, las submuestras de la población con un sujeto dependiente de la probabilidad, a continuación, calcula el H-T estimador. Se hace el submuestreo & H-T estimación de 500 veces en la misma población para ayudar a ilustrar el estimador de la exactitud. Aquí se muestra un ejemplo de ejecución:

[1] "population mean: 65.94"
[1] "average Horvitz-Thompson estimate: 65.9"
[1] "standard error in Horvitz-Thompson estimate: 5.09"

El primer número es la media de población. La población es aleatoria, sino que se genera una vez al principio del código y se fija a partir de entonces. Cada uno de los 500 estimación de ensayos toma una dirección diferente submuestra aleatoria a partir de esta población.

El segundo número es el promedio de 500 Horvitz-Thompson estimaciones de la media de población, cada uno de diferentes submuestra aleatoria pop[included] de la misma población fija pop. Observe cuán cerca se encuentra de la media de población, lo que ilustra el imparcial de la propiedad de la H-T estimador.

El tercer número es la desviación estándar de los 500 estimaciones. Es una estimación del error estándar para cualquier H-T estimación de la media de población.

Usted podría preguntarse por qué el promedio de H-T estimación mucho más cerca de la media de la población es que el error estándar podría sugerir. Esto es porque nos han hecho un promedio de 500 H-T estimaciones juntos, y el error en estas estimaciones es aproximadamente el $\sigma / \sqrt{T}$ donde $\sigma$ es la desviación estándar (en este caso 5.09) y $T$ es el número de ensayos. En nuestro código de $T = 500$$\sigma / \sqrt{T} = 0.22$, que está en el orden de la real desviación, $0.4$, entre la población media y el promedio de 500 H-T estimaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X