5 votos

Barras de error usando la desviación absoluta mediana

He intentado encontrar una solución a mi pregunta en Google, pero parece que no puedo encontrar mucha información sobre las barras de error y la desviación mediana absoluta y no sé mucho sobre análisis de errores estadísticos, por lo que cualquier ayuda sería muy apreciada.

Estoy creando un gráfico semi-logarítmico para mi investigación astronómica que divide los datos en 5 intervalos igualmente espaciados en base 10 (eje x) y grafica el valor promedio para cada intervalo (eje y). Por lo tanto, cada intervalo tiene un tamaño de muestra más grande a medida que aumenta el eje x. Dado que se trata de un estudio estadístico, hay mucho potencial de incertidumbre y hay una alta presencia de valores atípicos (distribuciones de error no gaussianas). Por lo tanto, me gustaría usar barras de error de desviación mediana absoluta (MAD) ya que MAD es menos susceptible a valores atípicos.

Entonces, mi pregunta es: Al igual que la desviación estándar y el error estándar, donde el error estándar es solo stdev/sqrt(N) y N es el tamaño de la muestra, ¿existe un análogo para esto para la desviación mediana absoluta? Las barras de error que obtengo cuando uso MAD/sqrt(N) parecen estar correctas, pero no tengo confianza en explicar mi razonamiento para usar este enfoque. ¿Dividir MAD por la raíz cuadrada del tamaño de la muestra es un medio aceptable para producir barras de error? Y si no, ¿tienes alguna otra sugerencia? Además, por la investigación que he realizado, parece que la desviación mediana absoluta es un mejor estimador que la desviación media absoluta... ¿estarías de acuerdo?

ACTUALIZACIÓN:

Aquí está mi gráfico original con barras de error de desviación mediana absoluta/sqrt(N) (NOTA: el título debería decir mediana, no media!) El primer intervalo contiene 39 muestras, el segundo contiene 146, el tercero 454, el cuarto 1287 y el quinto 2371 muestras. Se ve bien, pero el método para producir barras de error no parece ser muy preciso. Introduce aquí la descripción de la imagen

He creado barras de error utilizando el método de bootstrap como sugirió @Glen_b (adjunto abajo). Se ve bien para mí, pero mi asesor siente que las barras de error han sido sobreestimadas con este método.

Introduce aquí la descripción de la imagen

4voto

AdamSane Puntos 1825

Suena como si estuvieras hablando de lo que a veces se llama un regressogram, con una variable x escalada logarítmicamente.

Aquí hay una serie de problemas, no necesariamente en orden lógico:

  • la cantidad que estás graficando es una media, por lo que si quieres graficar la desviación mediana absoluta, es el MAD de las medias lo que quieres.

  • tu sugerencia de $\text{MAD}/\sqrt n$ conduce a la pregunta "¿cuándo la MAD de la media es igual a la MAD de los datos dividida por $\sqrt n$?"

  • cuando dices "parece que la desviación absoluta mediana es un mejor estimador que la desviación absoluta media" ... eso depende de lo que estemos hablando - ¿un mejor estimador de qué?, y ¿bajo qué circunstancias?


Entonces, "¿cuándo la MAD de la media es igual a la MAD de los datos dividida por $\sqrt n$?"

La respuesta es, a diferencia de la situación con la desviación estándar, esto no es generalmente el caso. La razón por la que las desviaciones estándar de los promedios escalan como lo hacen es que las varianzas de variables aleatorias independientes se suman (más precisamente, la varianza de la suma es la suma de las varianzas cuando las variables son independientes), independientemente de las distribuciones de los componentes (siempre y cuando las varianzas existan). Es esta propiedad en particular la que explica en gran parte la popularidad de varianzas y desviaciones estándar.

Ni la desviación mediana, ni la desviación media tienen esa propiedad en general.

Sin embargo, cuando los datos son normales, en efecto heredarán esa propiedad, ya que la razón de la desviación mediana o desviación media de la población a la desviación estándar en una distribución normal será una constante, las normales están cerradas bajo convolución, y las desviaciones estándar escalan de esa manera.

Si los datos estuvieran razonablemente cerca de una distribución normal, tal vez podría ser adecuado.


¿Qué más se podría hacer? Una forma de estimar el error estándar de una estadística es a través del bootstrap; para la desviación media - al ser un promedio - esto debería funcionar bien en muestras grandes. Desafortunadamente, los medianos no lo hacen tan bien bajo el bootstrap, y este problema se trasladará a las desviaciones absolutas medianas.

Si tienes algún modelo de probabilidad para tus datos, también existe la simulación como una forma de abordar el problema.

3voto

Un error estándar significa algo. No se toma simplemente cualquier estadístico y se divide por sqrt(n). ¿Por qué no simplemente trazar tu DPM y tener tu barra de error como una representación de la variabilidad en los datos? Si quieres que algo represente la calidad de tu estimación de la mediana entonces simplemente calcula un intervalo de confianza de la mediana.

3voto

Nick Cox Puntos 22819

Haga lo que haga, grafique sus datos en bruto o al menos hágales disponibles de alguna manera.

Si elige la desviación media absoluta (MAD), asegúrese absolutamente de si se trata de desviaciones de la media o de la mediana, ya que he visto MAD utilizado como abreviatura para ambos y, en cualquier caso, cualquier ambigüedad no beneficia a nadie.

Graficar +/- MAD como barras de error tiene una conexión suelta con los diagramas de caja ampliamente utilizados en los que la mediana y los cuartiles se muestran en una caja y hay varias recetas diferentes sobre lo que se muestra fuera de la caja.

MAD es aproximadamente |cuartil $-$ mediana| en una distribución simétrica. Para una distribución simétrica, es irrelevante si MAD es MAD de mediana y/o de media o si "cuartil" es el cuartil superior o inferior. MAD será similar a (cuartil superior $-$ mediana) y (mediana $-$ cuartil inferior) incluso en muchas distribuciones asimétricas. Hay varias reglas ligeramente diferentes para los cuartiles, lo que puede causar pequeños enigmas, pero no es central aquí.

Una pregunta más grande es esta: si los valores atípicos hacen que sus errores estándar sean dudosos, ¿cómo es que desea mostrar medias, ya que también se verán afectadas? Como menciona @John, una mediana es claramente una posibilidad. Además, ¿sería mejor en una escala logarítmica u otra escala transformada para su variable y también?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X