Digamos se toma una muestra de una población y encontrar las estadísticas de la misma como la media, varianza, mínima y máxima. Luego, tomar otra muestra de la misma población y encontrar sus estadísticas. ¿La estadística sería el mismo para ambas muestras? Supongo que el mínimo y máximo tiene la oportunidad de ser diferente, pero no estoy seguro para la media y varianza.
Respuestas
¿Demasiados anuncios?En general la muestra estadísticas tienden a ser diferentes. Continuo con variables aleatorias debe ser siempre el caso (hasta el redondeo, lo que nos lleva de vuelta a la "realidad que sólo ficticiamente continuo") y con discretas variables aleatorias es a menudo el caso con algunas de las estadísticas y tal vez más a menudo y no con otros (con qué frecuencia según el patrón de la distribución, el tamaño de la muestra, y de las estadísticas que usted está mirando).
Usted puede responder a su propia pregunta directa de experimentar, en casos sencillos.
Por ejemplo, considere la posibilidad de rodar un particular de seis caras morir (un bien fabricado que está muy cerca de la feria). Puede dibujar dos muestras de algunos tamaño deseado ($n_1=20$$n_2=20$ dicen) y calcular sus estadísticas. Yo sugiero que lo intente!
En realidad, no está uno para pedirle que trate de algo que no haría yo mismo, he aquí mis intentos, primero con un dado (dos muestras de tamaño 20) y, a continuación, repita con diferentes morir:
Die A Outcome: 1 2 3 4 5 6
Sample 1 (Counts) 2 3 3 2 4 6
Sample 2 6 2 3 4 3 2
Die B Outcome: 1 2 3 4 5 6
Sample 1 (Counts) 3 7 3 0 3 4
Sample 2 1 4 1 5 4 5
Así que aquí están algunas de las estadísticas de resumen:
Die A Range median mean sd
Sample 1 5 4.5 4.05 1.791
Sample 2 5 3 3.10 1.774
Die B Range median mean sd
Sample 1 5 2.5 3.25 1.860
Sample 2 5 4 4.10 1.619
Si usted lo hace, usted probablemente va a obtener el mismo máximo y mínimo dos veces (que usted esperaría tanto 1 y 6 muestran en una muestra de 20 aproximadamente el 95% del tiempo), pero los medios y las desviaciones estándar sería diferente.
Las medianas, bien podría ser el mismo (alrededor de un 25% de posibilidades de que, con la definición habitual de la mediana de la muestra para, incluso,$n$), pero fácilmente puede que no.
Hay alguna posibilidad de obtener la misma media para dos de estos (porque estamos en el muestreo de una distribución discreta con sólo un par de resultados), pero hay una baja posibilidad de verla (unos 3,7%);
usted también puede obtener la misma desviación estándar, pero la probabilidad es mucho menor todavía ... alrededor de 2/3 de un por ciento.
En mayor o menor tamaños de la muestra de las posibilidades de cambio; y que cambiar de nuevo si puedes sacar de otras distribuciones que la de una (aproximadamente) feria de la tirada de dados.
Que todas esas estadísticas que he mencionado sería el mismo, sería muy raro.
¿Qué otros tipos de muestras podría fácilmente hacer un experimento con el? ¿Qué esperas encontrar?
Vamos a probarlo, el uso de Python para tomar dos muestras de tamaño 100 a partir de una distribución normal estándar:
>>> import numpy as np
>>> samp1 = np.random.randn(100)
>>> samp2 = np.random.randn(100)
>>> np.mean(samp1), np.mean(samp2)
(-0.021265142109962453, 0.10432818350501703)
>>> np.var(samp1), np.var(samp2)
(0.97512014413601544, 0.97388659947212219)
>>> np.min(samp1), np.min(samp2)
(-2.5134700890849775, -2.0177700510108623)
>>> np.max(samp1), np.max(samp2)
(2.9687061563574924, 2.8165937970247885)
Si eres de muestreo de distribuciones continuas, entonces los valores de las estadísticas que se obtiene a partir de dos muestras diferentes van a ser diferentes con probabilidad 1.
Muestreo de una distribución discreta (que puede ser lo que usted entiende por "población"), habrá alguna posibilidad de que usted obtenga los mismos valores, pero definitivamente no es garantizado. Por ejemplo, pensar en tomar una muestra de tamaño 1 a partir de una distribución uniforme sobre $\{1, 2, 3, 4\}$. Toma de muestras de mayor tamaño hace que sea más probable que los que están más cerca, pero no van a ser exactamente el mismo.
Dicho esto, si las muestras son del mismo tamaño y la distribución de la estadística que se obtiene es el mismo. (Sin mirar a samp1
o samp2
, no tengo ninguna razón para pensar que uno va a tener un mayor significa que el otro, por ejemplo).
Suponiendo que las muestras proceden de la misma población; como muestra de que aumenta el tamaño de la muestra estadística que debe acercarse a las estadísticas de población.
Todo lo que dijo:
La media, mediana, mínimo, máximo, o cualquier otro dato estadístico puede ser diferente de la población para cualquier muestra dada. Esto es donde las cosas como la prueba t de entrar a determinar si existe una diferencia estadísticamente significativa entre la muestra y la población. En el predicado que no sabes si son de muestreo de la población de curso.
Considere una población que consta de 5 personas, con edades de 10, 20, 30, 40 y 50. Suponga que estamos interesados en las estadísticas de sus edades. Si el tamaño de la muestra = 4, estos son los 5 posibles muestras:
- 10, 20, 30, 40
- 10, 20, 30, 50
- 10, 20, 40, 50
- 10, 30, 40, 50
- 20, 30, 40, 50
Es claro que casi todos los de la norma estadísticas son diferentes a través de muestras.
Si el tamaño de la muestra = tamaño de la población, de todas las estadísticas sería el mismo en todas las muestras (obviamente, porque cada una de las muestras de la misma ). A medida que disminuye el tamaño de la muestra, las estadísticas que observar varían a través de las muestras, y la variabilidad es modelado utilizando el muestreo de las distribuciones.