5 votos

Desviación absoluta de la mediana: impacto/desviación al forzar una mediana de cero

Quiero estimar la desviación absoluta media (MAD) de una señal. La MAD se define como la mediana de la diferencia absoluta entre la señal y su mediana.

Ahora tengo una señal que sé con certeza que tiene una mediana de cero. Su mediana empírica, por supuesto, no suele ser igual a cero.

Me preguntaba si habría alguna ganancia, o alguna pérdida, en el presente caso (por ejemplo, en términos de sesgo o precisión), al estimar la MAD como la mediana del valor absoluto de la señal, es decir, "forzando" que la mediana empírica en el cálculo anterior sea cero.

3 votos

Si su afirmación es correcta (que la verdadera mediana es 0), entonces es mejor utilizar el valor poblacional conocido. Sin embargo, en muestras grandes no habrá mucha diferencia, y a medida que el tamaño de la muestra crece el beneficio disminuye hacia 0. Sin embargo, si la afirmación es incluso ligeramente errónea, entonces a medida que n crece, la puramente muestral pronto superará a la basada en la mediana especificada.

6voto

user60642 Puntos 6

Si está estimando la DAM utilizando la DAM de la muestra sin ninguna corrección, el uso de la mediana real en lugar de la mediana empírica hará que su estimación esté menos sesgada.

La DAM de la muestra es una estimación sesgada-baja de la verdadera DAM, porque en realidad estás haciendo dos pasos de estimación:

  1. Estimar la mediana de la muestra $m$ de los datos
  2. Estimar la desviación absoluta de $m$ utilizando los mismos datos

Pero en el paso 1 se está seleccionando esencialmente el $m$ que minimiza el resultado en el paso 2, por lo que su resultado termina siendo sesgado a la baja. Esta es la misma razón por la que, al calcular la varianza, se suele dividir la suma de los cuadrados por $n-1$ en lugar de por $n$ : es corrige el sesgo del parámetro molesto .

De todos modos, el punto es que si usted conoce la verdadera mediana, entonces usted no tiene este problema, y su muestra MAD es una estimación insesgada de su verdadera MAD. Así que no tienes que preocuparte de hacer esas correcciones.

EDIT: Sin embargo, como señala Glen_b en los comentarios, si su suposición de 0 mediana es incluso ligeramente errónea, entonces la estimación asumiendo una mediana 0 será mucho peor que la estimación utilizando la mediana de la muestra para grandes conjuntos de datos. Por lo tanto, asegúrese de comprobar al menos que una mediana real de 0 es coherente con sus datos, incluso si sabe a ciencia cierta que debe serlo.

EDIT 2: Un argumento más formal ya que @AndrewM preguntó:

Tome una muestra $\{X_i\}_{i=1}^N$ de una r.v. $X$ . Dejemos que $m$ sea la verdadera mediana y $\hat m$ sea la mediana de la muestra. La verdadera MAD es $E_X(|X - m|)$ una estimación no sesgada de esto es $\frac1N \sum_i |X_i - m|$ . Definir $\text{mad}(y) := \frac1N\sum_i |X_i - y|$ para que $\text{mad}(m)$ es un estimador insesgado de la verdadera MAD. Entonces la mediana de la muestra es $\text{mad}(\hat m)$ . Pero por el propiedad de optimalidad de la mediana , $\hat m$ es el minimizador de nuestro $\text{mad}$ función. Por lo tanto, a menos que $m = \hat m$ con probabilidad 1, $E(\text{mad}(\hat m)) < E(\text{mad}(m))$ y la muestra MAD está sesgada a la baja.

0 votos

Su argumento heurístico sobre el sesgo (la atenuación) parece razonable. ¿Hay alguna teoría que lo respalde?

0 votos

@AndrewM: No pude encontrar ninguno para el MAD, pero aquí está el argumento técnico de por qué dividir por $n$ sesga la varianza a la baja. Creo que uno similar debería funcionar para MAD.

1 votos

@AndrewM: Resulta que hay un argumento mejor que el golpe de álgebra en el artículo de la Wiki. Lo escribí para convencerme de que era correcto. Ver edición 2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X