4 votos

¿Cuál es la estimación del sesgo de la parte superior de la estimación en una lista ordenada por valor?

Vamos a hacer que el problema sea tan simple como sea posible. Suponga que dos variables aleatorias, $X_1$$X_2$. Sobre la base de algunos de los datos podemos estimar su verdadero significa $\mu_{X_1}$ $\mu_{X_2}$ por ejemplo significa $\hat\mu_{X_1}$$\hat\mu_{X_2}$. Estas estimaciones son imparciales.

Pero ahora vamos a ordenar nuestras dos variables aleatorias por su muestra de medios y mirar a la variable con el mayor promedio de la muestra. Ahora para el top de la lista de la variable aleatoria media muestral es ahora un sesgada estimador de su verdadera media (bajo algunos supuestos razonables, por ejemplo, que las medias de estas variables aleatorias son en sí mismos distribuido en un modo determinado y que la distribución tiene una media) -- que es fácil de comprobar por Monte-Carlo. Para la evidencia, no de dos, sino de un millar de variables aleatorias y hacer que su verdadero medios similares.

La pregunta es ¿qué es este sesgo y ¿cómo puedo calcular analíticamente? También me gustaría apreciar algunos discusión conceptual sobre cómo se hace la estimación de sesgos que surgen de la clasificación por valores estimados.

1voto

user11915 Puntos 16

Deje $X_{in}$ ser yo.yo.d. copias de $X_i$ y deje $Y_i$ el valor del $i^{th}$ la media de la muestra $$ Y_i = \frac{1}{N_i} \sum_{n=1}^{N_i} X_{en} \enspace, $$ y deje $F_i$ el valor de su función de distribución acumulativa (CDF). Tenga en cuenta que $Y_i$ $F_i$ están completamente definidas cuando tenemos la distribución de la variable aleatoria $X_i$ y el número de muestras para esta variable. Entonces, la probabilidad de que el más alto de la media de la muestra es más pequeña, a continuación, algunos de valor de $x$ es igual a la probabilidad de que todos los de la muestra significa que son más pequeños de lo $x$, y por lo tanto su distribución es definido por: $$ F_{\max}(x) = P( \max_i Y_i < x ) = \prod_{i=1}^M P( Y_i < x ) = \prod_{i=1}^M F_i(x) \enspace, $$ donde $N_i$ es el número de muestras para la $i^{th}$ variable aleatoria, y $M$ es el número de variables aleatorias.

Se han realizado algunos trabajos para determinar el sesgo de la máxima muestra promedio para el máximo real significa: $$ E\left\{ \max_i Y_i \right\} - \max_i E \{ X_i \} \enspace.\la etiqueta{1} $$ Véase, por ejemplo, este papel de algunos límites. Entonces, ¿por qué este sesgo se producen? La razón intuitiva es que cuando se selecciona la más alta de la media de la muestra, que son más propensos a seleccionar un sobrevalorado significa que usted debe seleccionar un subestimado decir. Más formalmente, es una consecuencia directa de la desigualdad de Jensen, que los estados $E f(X) > f( E X )$ para cualquier estrictamente convexa $f$ (tenga en cuenta que $\max$ es un convexo operador).

Te preguntan acerca de diferentes, pero relacionadas, de sesgo: la diferencia entre el máximo de la media de la muestra y la media real de la correspondiente variable aleatoria que ha dado el máximo de la muestra de la media. Esto corresponde a: $$ \sum_{i=1}^M P\left( Y_i = \max_j Y_j \right) E \left\{ Y_i - E \left\{ X_i \right\} \medio| Y_i = \max_j Y_j \right\} \enspace, $$ la cual puede escribirse como $$ E \left\{ \max_i Y_i \right\} - \sum_{i=1}^M P\left( Y_i = \max_j Y_j \right) E \left\{ X_i \right\} \enspace. $$ No sé de trabajos anteriores sobre este sesgo particular, pero es fácil demostrar que este sesgo es menor delimitada por el sesgo en $(1)$ (como una suma ponderada es siempre menor que el máximo). En general, el sesgo resultante no puede tener un muy 'agradable' analítico forma, pero es bastante fácil de aproximar numéricamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X