Estoy bastante confuso con la diferencia entre tomar el promedio de las muestras más y tomando la media de una muestra con más observaciones. ¿Obtener estimaciones imparciales tomando más muestra de observaciones más?
Respuestas
¿Demasiados anuncios?En algunas áreas (por ejemplo, química analítica) el término de la muestra significa una pieza (o cantidad) de material a ser analizado (espécimen). Desde un punto de vista estadístico, entonces tienes una anidados/clúster/estructura jerárquica de la muestra y de la asunción de independiente "muestreo aleatorio" en @soakley la respuesta es que no se cumple:
múltiples observaciones de la misma muestra, a menudo son más similares de múltiples observaciones de diferentes espécimen (aka muestras).
Es decir, $\sigma^2_\text{within specimen} < \sigma^2_\text{between specimen}$.
E. g. para el análisis químico de un mineral, un error de muestreo $\sigma^2_\text{between specimen}$ $\leq 3 \times $ el análisis de error $\sigma^2_\text{within specimen}$ sería considerada típica (bien hecho de muestreo).
Si el muestreo se realiza correctamente (tanto física estadística y el significado de la "muestra"), a continuación, tomar 50 o 500 especímenes/muestras de ambos producir estimaciones imparciales de la propiedad de destino. Si no se realiza adecuadamente, entonces ambos pueden estar sesgados. Si la estimación es parcial o no, no depende de la cantidad de muestra / (estadística) tamaño de la muestra, pero en el procedimiento de muestreo.
Pero si $\sigma^2_\text{within samples/specimen} < \sigma^2_\text{between samples/specimen}$, la incertidumbre (error estándar) después de 50 muestras/ espécimen $\times$ 10 observaciones cada uno es más grande que la incertidumbre, después de 500 muestras/ espécimen $\times$ 1 observación de cada uno.
Si sólo 1 ejemplar analizado con 500 observaciones, a continuación, la estimación es todavía imparcial, pero lamentablemente usted no tiene ninguna idea de que el error de muestreo $\sigma^2_\text{between samples/specimen}$ aparte de eso, usted puede asumir que es un múltiplo (por ejemplo, un orden de magnitud superior) de la varianza $\sigma^2_\text{within samples/specimen}$ observa entre los 500 observaciones.
Suponga que usted toma de 10 muestras de 50 y su amigo toma una muestra de 500. No hay ninguna diferencia en la cantidad de información que se puede extraer frente a su amigo. En teoría en la que ambos están en las mismas condiciones porque tienen la misma cantidad de datos. Podrían surgir problemas si las muestras no son independientes, pero bajo independiente de muestreo aleatorio usted y su amigo están lidiando con situaciones equivalentes.
Echemos un vistazo a la varianza. Supongamos que el promedio de los 10 muestra de medios. Así que usted ha $$\bar x_{samples}=(1/10)(\bar x_1+\bar x_2 + \cdots + \bar x_{10}) $$
La varianza de esta variable aleatoria es $(1/10^2)*(10)*(\sigma^2/50)= \sigma^2/500,$ donde $\sigma^2$ es la varianza de la población.
Pero esto es igual a la varianza de la variable aleatoria $$\bar x_{500}=(1/500)*(x_1 + x_2 + \cdots + x_{500}),$$, que utiliza su amigo.
Para responder a su pregunta acerca del prejuicio, ambos estimadores son insesgados para la población. Que es, se espera que los valores de ambos son iguales a la media de población.