46 votos

¿Por qué aumentar el tamaño de la muestra disminuye la varianza (de muestreo)?

Gran imagen:

Estoy tratando de entender cómo el aumento del tamaño de la muestra aumenta el poder de un experimento. Las diapositivas de mi profesor explican esto con una imagen de 2 distribuciones normales, una para la hipótesis nula y otra para la hipótesis alternativa y un umbral de decisión c entre ellas. Sostienen que aumentar el tamaño de la muestra reducirá la varianza y, por lo tanto, causará una mayor curtosis, reduciendo el área compartida bajo las curvas y, por lo tanto, la probabilidad de un error tipo II.

Pequeña imagen:

No entiendo cómo un tamaño de muestra más grande reducirá la varianza.
Supongo que solo se calcula la varianza de la muestra y se utiliza como parámetro en una distribución normal.

He intentado:

  • googlear, pero la mayoría de las respuestas aceptadas tienen 0 votos positivos o son simplemente ejemplos
  • pensar: Según la ley de los grandes números, cada valor debería eventualmente estabilizarse alrededor de su valor probable según la distribución normal que asumimos. Y la varianza debería, por lo tanto, converger a la varianza de nuestra distribución normal asumida. Pero ¿cuál es la varianza de esa distribución normal y es un valor mínimo, es decir, podemos estar seguros de que nuestra varianza de la muestra disminuirá a ese valor?

2 votos

Como eres nuevo en CrossValidated, permíteme señalar que si recibes lo que consideres una respuesta satisfactoria, deberías considerar marcarla como "aceptada" haciendo clic en una marca verde a la izquierda de ella. Esto proporciona reputación adicional para quien responde y también marca la pregunta como resuelta.

0 votos

Pienso en ello de esta manera: cada nuevo punto tiene información única. Puntos infinitos tienen suficiente para hacer una estimación perfecta. A medida que agregamos más y más nuevos puntos de muestra, la diferencia entre la información que necesitamos tener una estimación perfecta y la información que realmente tenemos se hace más y más pequeña.

1 votos

Esta es la fuente de la confusión: no es la varianza de la muestra la que disminuye, sino la varianza de la varianza de la muestra. La varianza de la muestra es un estimador (por lo tanto, una variable aleatoria). Si tus datos provienen de una normal N(0, 5), la varianza de la muestra estará cerca de 5. ¿Qué tan cerca? Depende de la varianza de tu estimador para la varianza de la muestra. Con 100 puntos de datos, es posible que encuentres algo como 4.92. Con 1000, encontrarás algo como 4.98. Con 10000, encontrarás 5.0001. Por lo tanto, es la precisión de tus mediciones lo que aumenta, no tus mediciones en sí mismas.

37voto

AdamSane Puntos 1825

Las desviaciones estándar de los promedios son más pequeñas que las desviaciones estándar de las observaciones individuales. [Aquí asumiré observaciones independientes e idénticamente distribuidas con varianza de población finita; algo similar se puede decir si se relajan las dos primeras condiciones.]

Es una consecuencia del simple hecho de que la desviación estándar de la suma de dos variables aleatorias es menor que la suma de las desviaciones estándar (solo puede ser igual cuando las dos variables están perfectamente correlacionadas).

De hecho, cuando se trata de variables aleatorias no correlacionadas, podemos decir algo más específico: la varianza de la suma de las variables es la suma de sus varianzas.

Esto significa que con $n$ variates independientes (o incluso solo no correlacionados) con la misma distribución, la varianza de la media es la varianza de un individuo dividido por el tamaño de la muestra.

Correspondientemente, con $n$ variates independientes (o incluso solo no correlacionados) con la misma distribución, la desviación estándar de su media es la desviación estándar de un individuo dividido por la raíz cuadrada del tamaño de la muestra:

$\sigma_{\bar{X}}=\sigma/\sqrt{n}$.

Por lo tanto, al agregar más datos, se obtienen estimaciones cada vez más precisas de los promedios del grupo. Un efecto similar se aplica en problemas de regresión.

Dado que podemos obtener estimaciones más precisas de los promedios aumentando el tamaño de la muestra, somos capaces de distinguir más fácilmente los promedios que están cercanos entre sí, incluso si las distribuciones se superponen bastante, al tomar un tamaño de muestra grande todavía podemos estimar sus medias de población con suficiente precisión como para decir que no son iguales.

9voto

La variabilidad que se reduce a medida que aumenta N es la variabilidad de la media de la muestra, a menudo expresada como error estándar. O, en otros términos, la certeza de la veracidad de la media de la muestra está aumentando.

Imagina que realizas un experimento donde recolectas 3 hombres y 3 mujeres y mides sus alturas. ¿Qué tan seguro estás de que las alturas medias de cada grupo son la verdadera media de las poblaciones separadas de hombres y mujeres? Creo que no estarías muy seguro en absoluto. Fácilmente podrías recolectar nuevas muestras de 3 y encontrar nuevas medias varias pulgadas lejos de las primeras. Bastantes de los experimentos repetidos como este incluso podrían resultar en que las mujeres sean declaradas más altas que los hombres porque las medias variarían tanto. Con un bajo N, no tienes mucha certeza en la media de la muestra y varía mucho a través de las muestras.

Ahora imagina 10,000 observaciones en cada grupo. Será bastante difícil encontrar nuevas muestras de 10,000 que tengan medias que difieran mucho entre sí. Serán mucho menos variables y estarás más seguro de su precisión.

Si puedes aceptar esta línea de pensamiento, entonces podemos insertarla en los cálculos de tus estadísticas como error estándar. Como puedes ver en su ecuación, es una estimación de un parámetro, $\sigma$ (que debería volverse más preciso a medida que n aumenta) dividido por un valor que siempre aumenta con n, $\sqrt n. Ese error estándar representa la variabilidad de las medias o efectos en tus cálculos. Cuanto más pequeño sea, más poderosa será tu prueba estadística.

Aquí tienes una pequeña simulación en R para demostrar la relación entre un error estándar y la desviación estándar de las medias de muchas muchas repeticiones del experimento inicial. En este caso comenzaremos con una media poblacional de 100 y una desviación estándar de 15.

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # número de simulaciones
# error estándar teórico
s / sqrt(n)
# simulación del experimento y las desviaciones estándar de sus medias
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

Observa cómo la desviación estándar final se acerca al error estándar teórico. Al jugar con la variable n aquí, puedes ver que la medida de variabilidad se reducirá a medida que n aumenta.

[Como dato curioso, la curtosis en las gráficas realmente no está cambiando (asumiendo que son distribuciones normales). Reducir la varianza no cambia la curtosis pero la distribución se verá más estrecha. La única forma de examinar visualmente los cambios en la curtosis es poner las distribuciones en la misma escala.]

0 votos

Dos cosas no están del todo claras: (1) ¿Son las curvas de campana de las que habla el OP distribuciones de medias muestrales? (2) ¿Se consideran los tamaños de la muestra tanto para la distribución de la media de las muestras del grupo de control como para la distribución de la media de las muestras del grupo experimental?

0 votos

Tienes razón, en el futuro debería involucrar más pensamiento en mi parte :P

8voto

Aksakal Puntos 11351

Si querías saber cuál es el peso promedio de los ciudadanos estadounidenses, entonces en el caso ideal pedirías inmediatamente a cada ciudadano que se subiera a la balanza y recopilaras los datos. Obtendrías una respuesta exacta. Esto es muy difícil, por lo que quizás podrías hacer que algunos ciudadanos se subieran a la balanza, calcular el promedio y tener una idea de cuál es la media de la población. ¿Esperarías que el promedio de la muestra sea exactamente igual al promedio de la población? Espero que no.

Ahora, ¿estarías de acuerdo en que si obtuvieras más y más personas, en algún momento nos acercaríamos a la media de la población? Deberíamos, ¿verdad? Al final, la mayor cantidad de personas que podemos obtener es toda la población, y su media es lo que estamos buscando. Esta es la intuición.

Este fue un experimento mental idealizado. En realidad, hay complicaciones. Te daré dos.

  • Imagina que los datos provienen de una distribución de Cauchy. Puedes aumentar tu muestra infinitamente, pero la varianza no disminuirá. Esta distribución no tiene varianza poblacional. De hecho, estrictamente hablando, tampoco tiene una media de muestra. Es triste. Sorprendentemente, esta distribución es bastante real, aparece aquí y allá en la física.
  • Imagina que decides seguir adelante con la tarea de determinar el peso promedio de los ciudadanos estadounidenses. Entonces, tomas tu balanza y vas de casa en casa. Esto te llevará muchos años. Para cuando recopiles un millón de observaciones, algunos ciudadanos en tu conjunto de datos habrán cambiado mucho de peso, otros habrán muerto, etc. El punto es que aumentar el tamaño de la muestra en este caso no te ayuda.

1 votos

Sospecho que quisiste decir "peso promedio" en tu primera oración. Me gusta el uso de un experimento mental. Otra complicación puede surgir de tu herramienta de medición, es decir, las balanzas que se desgastarán, pueden tener errores de paralaje o errores del usuario que introducen otra variabilidad.

1voto

Jose Vila Puntos 16

Creo que la Ley de los Grandes Números explica por qué la varianza (error estándar) disminuye cuando el tamaño de la muestra aumenta. El artículo de Wikipedia sobre este tema dice:

Según la ley, el promedio de los resultados obtenidos de un gran número de ensayos debería estar cerca del valor esperado, y tenderá a acercarse más a medida que se realicen más ensayos.

En términos del Teorema del Límite Central:

Cuando se realiza un único muestreo aleatorio, cuanto mayor sea la muestra, más cercana será la media de la muestra a la media de la población (en la cita anterior, piensa en "número de ensayos" como "tamaño de la muestra", por lo que cada "ensayo" es una observación). Por lo tanto, al realizar un número infinito de muestras aleatorias, la varianza de la distribución de muestreo será menor cuanto mayor sea el tamaño de cada muestra.

En otras palabras, la forma de campana será más estrecha cuando cada muestra sea grande en lugar de pequeña, porque de esta manera cada media de muestra estará más cerca del centro de la campana.

1voto

Dr Vikas Doshi Puntos 1

A medida que aumenta el tamaño de la muestra, la varianza de la muestra (variación entre observaciones) aumenta pero la varianza de la media de la muestra (error estándar) disminuye y, por lo tanto, la precisión aumenta.

0 votos

¿Es cierto? ¿Aumenta la varianza a medida que aumenta el tamaño de la muestra?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X