La variabilidad que se reduce a medida que aumenta N es la variabilidad de la media de la muestra, a menudo expresada como error estándar. O, en otros términos, la certeza de la veracidad de la media de la muestra está aumentando.
Imagina que realizas un experimento donde recolectas 3 hombres y 3 mujeres y mides sus alturas. ¿Qué tan seguro estás de que las alturas medias de cada grupo son la verdadera media de las poblaciones separadas de hombres y mujeres? Creo que no estarías muy seguro en absoluto. Fácilmente podrías recolectar nuevas muestras de 3 y encontrar nuevas medias varias pulgadas lejos de las primeras. Bastantes de los experimentos repetidos como este incluso podrían resultar en que las mujeres sean declaradas más altas que los hombres porque las medias variarían tanto. Con un bajo N, no tienes mucha certeza en la media de la muestra y varía mucho a través de las muestras.
Ahora imagina 10,000 observaciones en cada grupo. Será bastante difícil encontrar nuevas muestras de 10,000 que tengan medias que difieran mucho entre sí. Serán mucho menos variables y estarás más seguro de su precisión.
Si puedes aceptar esta línea de pensamiento, entonces podemos insertarla en los cálculos de tus estadísticas como error estándar. Como puedes ver en su ecuación, es una estimación de un parámetro, $\sigma$ (que debería volverse más preciso a medida que n aumenta) dividido por un valor que siempre aumenta con n, $\sqrt n. Ese error estándar representa la variabilidad de las medias o efectos en tus cálculos. Cuanto más pequeño sea, más poderosa será tu prueba estadística.
Aquí tienes una pequeña simulación en R para demostrar la relación entre un error estándar y la desviación estándar de las medias de muchas muchas repeticiones del experimento inicial. En este caso comenzaremos con una media poblacional de 100 y una desviación estándar de 15.
mu <- 100
s <- 50
n <- 5
nsim <- 10000 # número de simulaciones
# error estándar teórico
s / sqrt(n)
# simulación del experimento y las desviaciones estándar de sus medias
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)
Observa cómo la desviación estándar final se acerca al error estándar teórico. Al jugar con la variable n aquí, puedes ver que la medida de variabilidad se reducirá a medida que n aumenta.
[Como dato curioso, la curtosis en las gráficas realmente no está cambiando (asumiendo que son distribuciones normales). Reducir la varianza no cambia la curtosis pero la distribución se verá más estrecha. La única forma de examinar visualmente los cambios en la curtosis es poner las distribuciones en la misma escala.]
2 votos
Como eres nuevo en CrossValidated, permíteme señalar que si recibes lo que consideres una respuesta satisfactoria, deberías considerar marcarla como "aceptada" haciendo clic en una marca verde a la izquierda de ella. Esto proporciona reputación adicional para quien responde y también marca la pregunta como resuelta.
0 votos
Pienso en ello de esta manera: cada nuevo punto tiene información única. Puntos infinitos tienen suficiente para hacer una estimación perfecta. A medida que agregamos más y más nuevos puntos de muestra, la diferencia entre la información que necesitamos tener una estimación perfecta y la información que realmente tenemos se hace más y más pequeña.
1 votos
Esta es la fuente de la confusión: no es la varianza de la muestra la que disminuye, sino la varianza de la varianza de la muestra. La varianza de la muestra es un estimador (por lo tanto, una variable aleatoria). Si tus datos provienen de una normal N(0, 5), la varianza de la muestra estará cerca de 5. ¿Qué tan cerca? Depende de la varianza de tu estimador para la varianza de la muestra. Con 100 puntos de datos, es posible que encuentres algo como 4.92. Con 1000, encontrarás algo como 4.98. Con 10000, encontrarás 5.0001. Por lo tanto, es la precisión de tus mediciones lo que aumenta, no tus mediciones en sí mismas.
0 votos
Tu experimento mental se refirió a datos distribuidos normalmente, pero también se aplica a datos extraídos de muchas otras distribuciones (como señaló @Aksakal, ¡no todas! El ejemplode la Cauchy es un ejemplo común de tal comportamiento adverso). Para datos binomiales, hay buenas discusiones sobre cómo varían la potencia y el error estándar con el tamaño de la muestra en stats.stackexchange.com/q/87730/22228