Deje $X_{in}$ ser yo.yo.d. copias de $X_i$ y deje $Y_i$ el valor del $i^{th}$ la media de la muestra
$$
Y_i = \frac{1}{N_i} \sum_{n=1}^{N_i} X_{en} \enspace,
$$
y deje $F_i$ el valor de su función de distribución acumulativa (CDF). Tenga en cuenta que $Y_i$ $F_i$ están completamente definidas cuando tenemos la distribución de la variable aleatoria $X_i$ y el número de muestras para esta variable. Entonces, la probabilidad de que el más alto de la media de la muestra es más pequeña, a continuación, algunos de valor de $x$ es igual a la probabilidad de que todos los de la muestra significa que son más pequeños de lo $x$, y por lo tanto su distribución es definido por:
$$
F_{\max}(x) = P( \max_i Y_i < x ) = \prod_{i=1}^M P( Y_i < x ) = \prod_{i=1}^M F_i(x) \enspace,
$$
donde $N_i$ es el número de muestras para la $i^{th}$ variable aleatoria, y $M$ es el número de variables aleatorias.
Se han realizado algunos trabajos para determinar el sesgo de la máxima muestra promedio para el máximo real significa:
$$
E\left\{ \max_i Y_i \right\} - \max_i E \{ X_i \} \enspace.\la etiqueta{1}
$$
Véase, por ejemplo, este papel de algunos límites. Entonces, ¿por qué este sesgo se producen? La razón intuitiva es que cuando se selecciona la más alta de la media de la muestra, que son más propensos a seleccionar un sobrevalorado significa que usted debe seleccionar un subestimado decir. Más formalmente, es una consecuencia directa de la desigualdad de Jensen, que los estados $E f(X) > f( E X )$ para cualquier estrictamente convexa $f$ (tenga en cuenta que $\max$ es un convexo operador).
Te preguntan acerca de diferentes, pero relacionadas, de sesgo: la diferencia entre el máximo de la media de la muestra y la media real de la correspondiente variable aleatoria que ha dado el máximo de la muestra de la media. Esto corresponde a:
$$
\sum_{i=1}^M P\left( Y_i = \max_j Y_j \right) E \left\{ Y_i - E \left\{ X_i \right\} \medio| Y_i = \max_j Y_j \right\} \enspace,
$$
la cual puede escribirse como
$$
E \left\{ \max_i Y_i \right\} - \sum_{i=1}^M P\left( Y_i = \max_j Y_j \right) E \left\{ X_i \right\} \enspace.
$$
No sé de trabajos anteriores sobre este sesgo particular, pero es fácil demostrar que este sesgo es menor delimitada por el sesgo en $(1)$ (como una suma ponderada es siempre menor que el máximo).
En general, el sesgo resultante no puede tener un muy 'agradable' analítico forma, pero es bastante fácil de aproximar numéricamente.