33 votos

Corrección del sesgo en la varianza ponderada

Para ponderar la varianza $$\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2$$ existe el sesgo corregido varianza de la muestra, cuando la media fue estimado a partir de los mismos datos: $$\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2$$

Estoy mirando ponderada de la media y la varianza, y se pregunta cuál es la adecuada corrección del sesgo de la varianza ponderada. El uso de: $$\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i$$

El "ingenuo", no-corregida la varianza estoy usando es este: $$\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2$$

Por eso me pregunto si la forma correcta de corregir el sesgo es

A) $$\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2$$

o B) $$\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2$$

o C) $$\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2$$

A) no tiene sentido para mí cuando los pesos son pequeños. La normalización de valor puede ser 0 o incluso negativo. Pero ¿qué hay de B) ($n$ es el número de observaciones) - este es el enfoque correcto? ¿Tienes alguna referencia que muestra esto? I belive "Actualización de la media y la varianza de las estimaciones: un método mejorado", D. H. D. West, 1979 utiliza este. La tercera, C) es mi interpretación de la respuesta a esta pregunta: http://mathoverflow.net/questions/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weighted-mean

C) me acabo de dar cuenta que el denominador se parece mucho a $\text{Var}(\Omega)$. ¿Hay alguna conexión general aquí? Creo que no del todo se alinee; y, obviamente, no es la conexión que estamos tratando de calcular la varianza...

Todos los tres de ellos se parecen a "sobrevivir" a la cordura de verificación de la configuración de todos los $\omega_i=1$. Así que debo utilizar, en virtud de que el local? "Actualización:" whuber propuso también hacer la comprobación de validez de los con $\omega_1=\omega_2=.5$ y el resto de las $\omega_i=\epsilon$ pequeña. Esto parece descartar a y B.

17voto

AtliB Puntos 776

Me fui a través de las matemáticas y terminó con la variante de la C:

$$Var(X) = \frac{(\sum_i \omega_i)^2}{(\sum_i \omega_i)^2 - \sum_i \omega_i^2}\overline V$$ donde $\overline V$ es la de no corregirse la varianza de estimación. La fórmula está de acuerdo con la ponderado caso cuando todos los $\omega_i$ son idénticas. I detalle de la prueba a continuación:

Establecimiento $\lambda_i = \frac{\omega_i}{\sum_i \omega_i}$, tenemos

$$\overline V = \sum_i \lambda_i (x_i - \sum_j \lambda_j x_j)^2$$

Ampliando el interior término da: $$(x_i - \sum_j \lambda_j x_j)^2 = x_i^2 + \sum_{j, k} \lambda_j \lambda_k x_j x_k - 2 \sum_j \lambda_j x_i x_j $$

Si tomamos la expectativa, tenemos que $E[x_i x_j] = Var(X)1_{i = j} + E[X]^2$, el plazo $E[X]$ estar presente en cada término, se cancela y se obtiene:

$$E[\overline V] = Var(X) \sum_i \lambda_i (1 + \sum_j \lambda_j^2- 2 \lambda_i )$$ que es $$E[\overline V] = Var(X) (1 - \sum_j \lambda_j^2)$$ Queda por enchufe en la expresión de $\lambda_i$ con respecto al $\omega_i$ para obtener la variante C.

14voto

Jon Smock Puntos 3921

Ambos a y C son correctas, pero que lo va a utilizar depende de qué tipo de pesos de los que uso:

  • Una de las necesidades que el uso de la"repetición"de tipo pesos (enteros contar el número de apariciones de cada observación), y es imparcial.
  • C tiene usted el uso de la"fiabilidad"de tipo pesos (normalizado pesos o cualquiera de las desviaciones de cada observación), y es sesgada. No puede ser imparcial.

La razón por la que C es necesariamente sesgada es porque si no el uso de la "repetición"de tipo pesos, se pierde la habilidad para contar el número total de observaciones (tamaño de muestra), y por lo tanto no se puede utilizar un factor de corrección.

Para obtener más información, consulte el artículo de la Wikipedia que fue actualizada recientemente: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X