23 votos

Una estimación insesgada de la mediana

Supongamos que tenemos una variable aleatoria $X$ compatible con $[0,1]$ de la que podemos extraer muestras. ¿Cómo podemos obtener una estimación insesgada de la mediana de $X$ ?

Podemos, por supuesto, generar algunas muestras y tomar la mediana de la muestra, pero entiendo que esto no será en general insesgado.

Nota: esta pregunta está relacionada, pero no es idéntica, a mi última pregunta en cuyo caso $X$ sólo se ha podido muestrear de forma aproximada.

17voto

jldugger Puntos 7490

Tal estimador no existe.

La intuición es que la mediana puede permanecer fija mientras desplazamos libremente la densidad de probabilidad a ambos lados de ella, de modo que cualquier estimador cuyo valor medio sea la mediana para una distribución tendrá una media diferente para la distribución alterada, lo que lo convierte en sesgado. La siguiente exposición da un poco más de rigor a esta intuición.


Nos centramos en las distribuciones $F$ tener medianas únicas $m$ de modo que, por definición $F(m) \ge 1/2$ y $F(x) \lt 1/2$ para todos $x \lt m$ . Fijar un tamaño de muestra $n \ge 1$ y supongamos que $t: [0,1]^n \to [0,1]$ estimaciones $m$ . (Bastará con que $t$ sólo estar acotado, pero normalmente no se consideran seriamente los estimadores que producen valores obviamente imposibles). Hacemos no suposiciones sobre $t$ ni siquiera tiene que ser continua en ninguna parte.

El significado de $t$ siendo insesgada (para este tamaño de muestra fijo) es que

$$E_F[t(X_1, \ldots, X_n)] = m$$

para cualquier muestra iid con $X_i \sim F$ . Un "estimador insesgado" $t$ es uno con esta propiedad para todos tal $F$ .

Supongamos que existe un estimador insesgado. Deduciremos una contradicción aplicándola a un conjunto de distribuciones particularmente sencillo. Consideremos las distribuciones $F = F_{x,y,m, \varepsilon}$ que tengan estas propiedades:

  1. $0 \le x \lt y \le 1$ ;

  2. $0 \lt \varepsilon \lt (y-x)/4$ ;

  3. $x + \varepsilon \lt m \lt y - \varepsilon$ ;

  4. $\Pr(X = x) = \Pr(X = y) = (1-\varepsilon)/2$ ;

  5. $\Pr(m-\varepsilon \le X \le m+\varepsilon) = \varepsilon$ y

  6. $F$ es uniforme en $[m-\varepsilon, m+\varepsilon]$ .

Estas distribuciones sitúan la probabilidad $(1-\varepsilon)/2$ en cada una de $x$ y $y$ y una pequeña cantidad de probabilidad colocada simétricamente alrededor de $m$ entre $x$ y $y$ . Esto hace que $m$ la mediana única de $F$ . (Si le preocupa que no sea una distribución continua, convuélvala con una gaussiana muy estrecha y trunque el resultado en $[0,1]$ : el argumento no cambiará).

Ahora, para cualquier estimador putativo de la mediana $t$ una estimación sencilla muestra que $E[t(X_1, X_2, \ldots, X_n)]$ está estrictamente dentro de $\varepsilon$ de la media de los $2^n$ valores $t(x_1, x_2, \ldots, x_n)$ donde el $x_i$ varían entre todas las combinaciones posibles de $x$ y $y$ . Sin embargo, podemos variar $m$ entre $x + \varepsilon$ y $y - \varepsilon$ un cambio de al menos $\varepsilon$ (en virtud de las condiciones 2 y 3). Por tanto, existe una $m$ y de ahí una distribución correspondiente $F_{x,y,m,\varepsilon}$ para el que esta expectativa sí no igual a la mediana, QED.

4voto

kjetil b halvorsen Puntos 7012

Encontrar un estimador insesgado sin disponer de un modelo paramétrico sería difícil. Pero se podría utilizar el bootstrap, y utilizarlo para corregir la mediana empírica y obtener un estimador aproximadamente insesgado.

1voto

zfranciscus Puntos 304

Creo que la regresión cuantílica te dará un estimador consistente de la mediana. Dado el modelo $Y = \alpha + u$ . Y quieres estimar $\text{med}(y) = \text{med}(\alpha + u) = \alpha + \text{med}(u)$ desde $\alpha$ es una constante. Todo lo que necesita es el $\text{med}(u) = 0$ lo que debería ser cierto siempre que tengas sorteos independientes. Sin embargo, en cuanto a la imparcialidad, no lo sé. Las medianas son difíciles.

0voto

James Puntos 19

La media no es el estadístico exclusivo que puede utilizarse para medir la tendencia central del sesgo de un estimador, y al limitarse a la media el problema acaba siendo el equivalente a decir que la media no es igual a la mediana.

Toma n=1 (sólo poblaciones muestrales compuestas por una única muestra) de modo que el único valor que un estimador t de la mediana m de la distribución de la población X , t(X_1) , puede tener es X_1 Así pues E(t(X_1))=E(X_1)=E(X)!=m por lo que parece que no puede haber un estimador insesgado de m . Sin embargo, median(t(X_1))=median(X_1)=median(X)=m ... por lo que sí existe un estimador insesgado: ¡la mediana muestral!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X