22 votos

Cálculo del error estándar en la estimación de la media ponderada

Supongamos que $w_1,w_2,\ldots,w_n$ y $x_1,x_2,...,x_n$ se dibujan cada uno de ellos i.i.d. de algunas distribuciones, con $w_i$ independiente de $x_i$ . El $w_i$ son estrictamente positivos. Se observan todas las $w_i$ pero no el $x_i$ sino que observas $\sum_i x_i w_i$ . Estoy interesado en estimar $\operatorname{E}\left[x\right]$ de esta información. Es evidente que el estimador $$ \bar{x} = \frac{\sum_i w_i x_i}{\sum_i w_i} $$ es insesgada y puede calcularse con la información disponible.

¿Cómo puedo calcular el error estándar de este estimador? Para el subcaso en el que $x_i$ sólo toma los valores 0 y 1, probé ingenuamente $$ se \approx \frac{\sqrt{\bar{x}(1-\bar{x})\sum_i w_i^2}}{\sum_i w_i}, $$ básicamente ignorando la variabilidad de la $w_i$ pero se comprobó que su rendimiento era escaso para tamaños de muestra inferiores a 250 aproximadamente. (Y esto probablemente depende de la varianza de la $w_i$ .) Parece que no tengo suficiente información para calcular un error estándar "mejor".

22voto

David Rabinowitz Puntos 130

Hace poco me encontré con el mismo problema. Lo siguiente es lo que encontré:

A diferencia de una muestra aleatoria simple con pesos iguales, no existe una definición ampliamente aceptada del error estándar del ponderado medio. Hoy en día, sería sencillo hacer un bootstrap y obtener la distribución empírica de la media, y a partir de ahí estimar el error estándar.

¿Y si se quisiera utilizar una fórmula para hacer esta estimación?

La referencia principal es este documento de Donald F. Gatz y Luther Smith, donde se comparan 3 estimadores basados en fórmulas con los resultados del bootstrap. La mejor aproximación al resultado bootstrap procede de Cochran (1977):

$(SEM_w)^2={\dfrac{n}{(n-1)(\sum {P_i})^2}}[\sum (P_i X_i-\bar{P}\bar{X}_w)^2-2 \bar{X}_w \sum (P_i-\bar{P})(P_i X_i-\bar{P}\bar{X}_w)+\bar{X}^2_w \sum (P_i-\bar{P})^2]$

El siguiente es el código R correspondiente que proviene de este hilo de R listserve .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Espero que esto ayude.

0 votos

Esto está muy bien, pero para mi problema ni siquiera observo el $P_iX_i$ , más bien observo la suma $\sum_i P_iX_i$ . Mi pregunta es muy extraña porque implica cierta asimetría de información (un tercero está informando de la suma, y tratando de ocultar quizás alguna información).

0 votos

Cielos, tienes razón, perdona que no haya entendido bien la pregunta que has planteado. Supongamos que reducimos tu problema al caso más simple en el que todos $w_i$ son RV de Bernoulli. Entonces estás observando esencialmente la suma de un subconjunto aleatorio de $n$ Vehículos recreativos. Mi opinión es que no hay mucha información aquí para estimar. Entonces, ¿qué terminó haciendo para su problema original?

0 votos

@Ming-ChihKao esta fórmula de Cochran es interesante, pero si construyes un intervalo de confianza a partir de ella cuando los datos no son normales, no hay una interpretación consistente, ¿correcto? ¿Cómo manejarías los intervalos de confianza de medias ponderadas no normales? ¿Cantidades ponderadas?

8voto

guest Puntos 1851

La varianza de su estimación dada la $w_i$ es $$ \frac{\sum w_i^2 Var(X)}{(\sum w_i)^2} = Var(X) \frac{\sum w_i^2 }{(\sum w_i)^2}. $$ Porque su estimación es insesgada para cualquier $w_i$ la varianza de su media condicional es cero. Por lo tanto, la varianza de su estimación es $$ Var(X) \mathbb{E}\left(\frac{\sum w_i^2 }{(\sum w_i)^2}\right) $$ Con todos los datos observados, esto sería fácil de estimar empíricamente. Pero con sólo una medida de localización del $X_i$ observado, y no su propagación, no veo cómo va a ser posible obtener una estimación de $Var(X)$ sin hacer suposiciones bastante severas.

0 votos

Al menos en el caso concreto de que $x_i$ tienen una distribución Bernoulli puedo estimar la varianza de $x$ por $\bar{x}(1-\bar{x})$ como se ha señalado anteriormente. Incluso en este caso, como se indica en la pregunta, necesito un tamaño de muestra mayor del que habría esperado.

2voto

La ecuación de @Ming K no me funciona. @Hugh mencionó Hmisc::wtd.var(x, w) pero esto es para la varianza, si se pregunta por el error estándar ponderado, ce sería útil. Pero lee la suposición y la ecuación aquí , siguiendo $$ \sigma _{x}^{-} = \sigma \sqrt{\sum_{i=1}^{n}\omega _{i}^{'2}} $$

Para su comodidad, los copio aquí.

wtd.stderror <- function(x, weights){
  var <- Hmisc::wtd.var(x, weights)
  weights <- sum( (weights / sum(weights))^2 )

  sqrt(var*weights)
}

Pero no estoy seguro de que esto funcione para un conjunto de fechas con una distribución Bernoulli

0 votos

Vuelva a leer la pregunta: el $x_i$ son no observados o no están disponibles para este cálculo.

0 votos

Lo siento, ya veo, esto es para complementar la respuesta de Ming K y Hugh

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X