Si está estimando la DAM utilizando la DAM de la muestra sin ninguna corrección, el uso de la mediana real en lugar de la mediana empírica hará que su estimación esté menos sesgada.
La DAM de la muestra es una estimación sesgada-baja de la verdadera DAM, porque en realidad estás haciendo dos pasos de estimación:
- Estimar la mediana de la muestra $m$ de los datos
- Estimar la desviación absoluta de $m$ utilizando los mismos datos
Pero en el paso 1 se está seleccionando esencialmente el $m$ que minimiza el resultado en el paso 2, por lo que su resultado termina siendo sesgado a la baja. Esta es la misma razón por la que, al calcular la varianza, se suele dividir la suma de los cuadrados por $n-1$ en lugar de por $n$ : es corrige el sesgo del parámetro molesto .
De todos modos, el punto es que si usted conoce la verdadera mediana, entonces usted no tiene este problema, y su muestra MAD es una estimación insesgada de su verdadera MAD. Así que no tienes que preocuparte de hacer esas correcciones.
EDIT: Sin embargo, como señala Glen_b en los comentarios, si su suposición de 0 mediana es incluso ligeramente errónea, entonces la estimación asumiendo una mediana 0 será mucho peor que la estimación utilizando la mediana de la muestra para grandes conjuntos de datos. Por lo tanto, asegúrese de comprobar al menos que una mediana real de 0 es coherente con sus datos, incluso si sabe a ciencia cierta que debe serlo.
EDIT 2: Un argumento más formal ya que @AndrewM preguntó:
Tome una muestra $\{X_i\}_{i=1}^N$ de una r.v. $X$ . Dejemos que $m$ sea la verdadera mediana y $\hat m$ sea la mediana de la muestra. La verdadera MAD es $E_X(|X - m|)$ una estimación no sesgada de esto es $\frac1N \sum_i |X_i - m|$ . Definir $\text{mad}(y) := \frac1N\sum_i |X_i - y|$ para que $\text{mad}(m)$ es un estimador insesgado de la verdadera MAD. Entonces la mediana de la muestra es $\text{mad}(\hat m)$ . Pero por el propiedad de optimalidad de la mediana , $\hat m$ es el minimizador de nuestro $\text{mad}$ función. Por lo tanto, a menos que $m = \hat m$ con probabilidad 1, $E(\text{mad}(\hat m)) < E(\text{mad}(m))$ y la muestra MAD está sesgada a la baja.
3 votos
Si su afirmación es correcta (que la verdadera mediana es 0), entonces es mejor utilizar el valor poblacional conocido. Sin embargo, en muestras grandes no habrá mucha diferencia, y a medida que el tamaño de la muestra crece el beneficio disminuye hacia 0. Sin embargo, si la afirmación es incluso ligeramente errónea, entonces a medida que n crece, la puramente muestral pronto superará a la basada en la mediana especificada.