25 votos

¿Por qué cambia la varianza de una muestra si las observaciones están duplicadas?

Se dice que la varianza es una medida de la dispersión. Así, había pensado que la varianza de 3,5 es igual a la varianza de 3,3,5,5 ya que los números están igualmente repartidos. Pero este no es el caso, la varianza de 3,5 es 2 mientras que la varianza de 3,3,5,5 es 1 1/3 .

Esto me desconcierta, dada la explicación de que la varianza se supone que es una medida de la dispersión.

Así que, en ese contexto, ¿qué hace medida de la difusión ¿quieres decir?

32voto

AdamSane Puntos 1825

Si se define la varianza como $s^2_{n}=$$\,\text{MSE}\,$$=\frac1n \sum_{i=1}^n (x_i-\bar{x})^2$ -- similar a la varianza de la población pero con la media de la muestra para $\mu$ entonces ambas muestras tendrían la misma varianza.

Así que la diferencia se debe puramente a La corrección de Bessel en la fórmula habitual de la varianza muestral ( $s^2_{n-1}=\frac{n}{n-1}\cdot \text{MSE}=\frac{n}{n-1}\cdot \frac1n \sum_{i=1}^n (x_i-\bar{x})^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$ que se ajusta al hecho de que el muestra La media está más cerca de los datos que la media de la población, para que sea insesgada (tomando el valor correcto "en promedio").

El efecto desaparece gradualmente al aumentar el tamaño de la muestra, ya que $\frac{n-1}{n}$ pasa a 1 como $n\to\infty$ .

No hay ninguna razón particular por la que tengas que usar el estimador insesgado para la varianza, por cierto -- $s^2_n$ es un estimador perfectamente válido, y en algunos casos puede tener ventajas sobre la forma más común (la insesgadez no es necesariamente tan importante).

La varianza en sí misma no es una medida directa de la dispersión. Si duplico todos los valores de mi conjunto de datos, sostengo que son dos veces más "dispersos". Pero la varianza se multiplica por 4. Por eso, lo más habitual es decir que la desviación estándar, y no la varianza, es una medida de la dispersión.

Por supuesto, el mismo problema ocurre con la desviación estándar (la habitual $s_{n-1}$ versión) como con la varianza -- cuando se duplican los puntos la desviación estándar cambia, por la misma razón que ocurre con la varianza.

En muestras pequeñas, la corrección de Bessel hace que la desviación estándar sea algo menos intuitiva como medida de dispersión debido a ese efecto (que al duplicar la muestra cambia el valor). Pero muchas medidas de dispersión conservan el mismo valor cuando se duplica la muestra; mencionaré algunas --

  • $s_n$ (por supuesto)

  • la desviación media (absoluta) de la media

  • la desviación (absoluta) de la mediana

  • el rango intercuartil (al menos para algunas definiciones de los cuartiles de la muestra)

3 votos

"No hay ninguna razón particular por la que tengas que usar el estimador insesgado" de hecho no deberías necesariamente estimación cualquier cosa. La varianza de {3, 5} es 1, según la primera fórmula. Como usted señala, el autor de la pregunta ha tratado de estimar la varianza de una población de la que se supone que es una muestra, pero quién sabe si lo es o no.

1voto

user80227 Puntos 11

Como una especie de mnemotecnia, $V\,X = E\,V\,X + V\,E\,X$ . Por tanto, el valor esperado de la varianza de una muestra es demasiado bajo, siendo la diferencia la varianza de la media de la muestra.

La fórmula habitual de la varianza de la muestra lo compensa, y la varianza de la media de la muestra es inversa al tamaño de la misma.

Como ejemplo extremo, tomar una sola muestra siempre mostrará una varianza muestral de 0, lo que obviamente no indica una varianza de 0 para la distribución subyacente.

Ahora, para 2 y 4 muestras ponderadas uniformemente, los factores de corrección son $2/1$ y $4/3$ respectivamente. Así que sus varianzas esperadas calculadas difieren en un factor de $2/3$ . La varianza de la propia muestra es $1$ en cualquier caso. Pero el primer caso presenta un argumento más débil para $4$ siendo la media de la distribución base, y cualquier otro valor significaría una mayor varianza.

2 votos

Al combinar estimadores con estadísticas Esta respuesta confunde, más que aclara, la cuestión. Por favor, lea la respuesta original de Glen_b en este hilo. El argumento de los dos primeros párrafos es misterioso porque parece ser irrelevante para la pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X