4 votos

¿Existe una relación entre el tamaño de la muestra y el rango de la variable?

He realizado simulaciones con diferentes tamaños de muestra de una distribución normal (media=0, sd=10) y he representado el número de muestras frente a los parámetros estadísticos. Entiendo que la relación entre el tamaño de la muestra y la media, la sd y la frecuencia relativa de las muestras fuera de 2*sd se debe a la ley de los grandes números. (La varianza se reduce con el tamaño de la muestra). No entiendo la relación entre el tamaño de la muestra y el rango de la variable. ¿Hay alguna explicación intuitiva para esta relación?

Simulations of a normal distribution (mean=0, sd=10) with different sample sizes and scatterplots of sample size and statistic parameters

3 votos

Por "rango", ¿se refiere literalmente al valor máximo de su muestra, el mínimo? Además, puede ser de interés para algunos lectores que publiques tu código.

0 votos

Vea algunos de los debates aquí incluyendo un gráfico que muestra el crecimiento asintótico del rango medio como $\sqrt{\log n}$

2voto

Tom Bushell Puntos 3510

Si por rango se entiende la diferencia entre el valor máximo y el mínimo, la respuesta es bastante sencilla.

Estás simulando datos de una distribución Normal con media 0 y desviación estándar de 10. El rango está directamente relacionado con los valores más extremos (mínimo y máximo) de tus datos. La probabilidad de obtener datos muy extremos es pequeña, de ahí la parte "extrema", pero a medida que el tamaño de la muestra se eleva al infinito, la probabilidad de obtener un punto de datos extremo se eleva a 1. (Donde usted ha definido extremo como más de 5 desviaciones estándar o cualquier otra cosa que considere "extrema")

Intuitivamente, a medida que crece la muestra de una distribución, es más probable que se den datos extremos, lo que tiene un impacto positivo directo en el rango. Como ejemplo, acabo de simular 100 millones de puntos de datos de una distribución N(0,10) en R y obtuve un rango de (-56,36, a 55,69), por lo que la diferencia aquí sería de unos 111. Obtuve valores a 5 desviaciones estándar de mi media, ¡porque simulé muchos datos! Seguro que si me sentara todo el día de mañana y simulara un pequeño conjunto de datos tras otro de N(0,10) podría ver un rango tan grande, pero probablemente no lo haría porque probablemente no simularía 100 millones de puntos de datos por valor de pequeños conjuntos de datos.

Por otra parte, este fenómeno no es realmente interesante, ya que es exactamente lo que se espera que ocurra.

0 votos

Sí, con rango me refiero a la diferencia entre el valor máximo y el mínimo. Gracias por tu explicación, sólida y comprensible. Supongo que, si se conoce la distribución, se puede pronosticar el rango medio en función del tamaño de la muestra (el enlace de glen_b en el comentario anterior contiene una buena discusión sobre esto). Más en general, sería interesante, si las distancias entre percentiles (por ejemplo, entre 10 y 90) muestran una relación similar con el tamaño de la muestra.

0 votos

No lo hacen: en el límite, los cuantiles muestrales no extremos van a los cuantiles poblacionales (para una definición adecuada/razonable de no extremo), y aparte de algunos detalles menores de definición en muestras pequeñas deberían tener expectativas iguales a sus contrapartes poblacionales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X