17 votos

¿Hay más de una fórmula de "mediana"?

En mi trabajo, cuando las personas se refieren al valor "media" de un conjunto de datos, generalmente se refieren a la media aritmética (es decir, "promedio" o "valor esperado"). Si proporcionara la media geométrica, probablemente pensarían que estoy siendo sarcástico o poco útil, ya que la definición de "media" se conoce de antemano.

Estoy tratando de determinar si hay múltiples definiciones de la "mediana" de un conjunto de datos. Por ejemplo, una de las definiciones proporcionadas por un colega para encontrar la mediana de un conjunto de datos con un número par de elementos sería:

Algoritmo 'A'

  • Divide el número de elementos por dos, redondea hacia abajo.
  • Ese valor es el índice de la mediana.
  • es decir, para el siguiente conjunto, la mediana sería 5.
  • [4, 5, 6, 7]

Esto parece tener sentido, aunque el aspecto de redondear hacia abajo parece un poco arbitrario.

Algoritmo 'B'

En cualquier caso, otro colega ha propuesto un algoritmo separado, que estaba en un libro de estadísticas de él (necesito obtener el nombre y autor):

  • Divide el número de elementos por 2 y guarda una copia de los enteros redondeados hacia arriba y hacia abajo. Nómbrelos n_lo y n_hi.
  • Toma la media aritmética de los elementos en n_lo y n_hi.
  • es decir, para el siguiente conjunto, la mediana sería (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Esto parece estar mal, ya que el valor de la mediana, 5.5 en este caso, en realidad no está en el conjunto de datos original. Cuando cambiamos el algoritmo 'A' por 'B' en algo de código de prueba, falló horriblemente (como esperábamos).

Pregunta

¿Existe un nombre formal para estos dos enfoques para calcular la mediana de un conjunto de datos? ¿es decir, "menor-de-los-dos mediana" versus "promedio-de-los-elementos-intermedios-y-crear-nueva-mediana-de-datos"?

17 votos

Nunca he visto el algoritmo "A" considerado una mediana. No debería ser un problema que una estadística descriptiva de la tendencia central de los datos no esté entre los datos mismos: después de todo, la mayoría de las medias tampoco están en los datos. Una propiedad más fundamental que nos gustaría que tuviera la mediana es que no cambie cuando se invierte la secuencia de datos, ya que ordenar los datos de menor a mayor o de mayor a menor es una cuestión arbitraria de gusto. Por esta razón, la mayoría de los autores definen la mediana como en el algoritmo "B", porque es, con mucho, el procedimiento invariante de orden más simple posible.

1 votos

En cuanto a "no está en el conjunto de datos original": ¿es necesario que la media esté en el conjunto de datos original? ¿Hay alguna razón para requerir que la mediana lo esté?

0 votos

@R.M. En el contexto de nuestro software (procesamiento de imágenes médicas), estamos extrayendo los valores de mediana y moda de una vecindad de 26 vecinos y 3 longitudes (es decir, todos los voxels en una cuadrícula de 7x7x7, menos el voxel central = 342 voxels), y estamos realizando algunas operaciones de filtrado de mediana y modo en él. Una de las limitaciones para los algoritmos involucrados es que el valor de mediana y modo (pero no el promedio) debe ser un elemento dentro del conjunto de datos original sin modificar.

26voto

icelava Puntos 548

Lo que dice @Sycorax.

De hecho, hay sorprendentemente muchas definiciones de cuantiles generales, y en particular también de medianas. Hyndman & Fan (1996, The American Statistician) ofrecen un resumen que, hasta donde yo sé, sigue siendo completo. Los diferentes tipos no tienen nombres formales. Simplemente necesitas ser claro en qué tipo estás utilizando. (A menudo no marca una gran diferencia con conjuntos de datos de tamaños realistas.)

Es importante tener en cuenta que es comúnmente aceptado tener un valor que no esté presente en el conjunto de datos como la mediana, por ejemplo, 5.5 como mediana para (4, 5, 6, 7). Este es el comportamiento predeterminado en R:

> median(4:7)
[1] 5.5

La función median() de R por defecto utiliza el tipo 7 de la clasificación de Hyndman & Fan.

7 votos

+1 para "A menudo no marca una gran diferencia con conjuntos de datos de tamaños realistas." Voy a tomarlo prestado, en lugar de mi frase habitual "si marca una diferencia material, probablemente necesites más datos." :)

1 votos

Si tiene una variable binaria con valores 0, 1 (por ejemplo) y aproximadamente la misma cantidad de 0s y 1s (con una media cercana a 0.5) entonces un tamaño de muestra grande no evitará necesariamente que la mediana reportada cambie entre 0, 0.5 y 1. Mosteller y Tukey (Análisis de Datos y Regresión 1977) mencionan distribuciones bimodales y casi simétricas como casos en los que la mediana podría no comportarse especialmente bien.

23voto

user777 Puntos 10934

TL;DR - No tengo conocimiento de que se den nombres específicos a diferentes estimadores de medianas de muestras. Los métodos para estimar estadísticas de muestras a partir de algunos datos son bastante complicados y diferentes recursos dan diferentes definiciones.

En Introducción a la Estadística Matemática de Hogg, McKean y Craig, los autores proporcionan una definición de medianas de muestras aleatorias, ¡pero solo en el caso de que haya un número impar de muestras! Los autores escriben

Ciertas funciones de las estadísticas de orden son importantes estadísticas en sí mismas... si $n$ es impar, $Y_{(n+1)/2}$ ... se llama la mediana de la muestra aleatoria.

Los autores no dan ninguna orientación sobre qué hacer si tienes un número par de muestras. (Nótese que $Y_i$ es el dato más pequeño en la posición $i$.)

Pero esto parece ser innecesariamente restrictivo; preferiría poder definir la mediana de una muestra aleatoria para un número par o impar de $n$. Además, me gustaría que la mediana sea única. Dadas estas dos condiciones, tengo que tomar algunas decisiones sobre cómo encontrar mejor una mediana de la muestra única. Tanto el Algoritmo A como el Algoritmo B cumplen con estos requisitos. Imponer requisitos adicionales podría eliminar uno o ambos de la consideración.

El Algoritmo B tiene la propiedad de que la mitad de los datos están por encima del valor y la otra mitad de los datos están por debajo del valor. A la luz de la definición de la mediana de una variable aleatoria, esto parece bueno.


Si un estimador en particular rompe las pruebas unitarias es una propiedad de las pruebas unitarias: las pruebas unitarias escritas para un estimador específico no necesariamente se mantendrán cuando se sustituya por otro estimador. En el caso ideal, las pruebas unitarias se eligieron porque reflejan las necesidades críticas de tu organización, no por una discusión doctrinaria sobre definiciones.

2 votos

(+1) También podemos añadir que (1) Cuando los valores vienen con pesos, entonces la definición de las medianas en principio y en práctica también debe cubrir eso. (Implícitamente en las respuestas hasta ahora, todos los pesos son iguales, por lo tanto, no tienen importancia.) Aunque la interpolación lineal en la suma acumulativa de pesos es la más simple, hay situaciones donde otros tipos de interpolación podrían tener sentido. (2) Definiciones más rigurosas de mediana suelen estar destinadas a abarcar distribuciones discretas y continuas e híbridas por igual, incluyendo aquellas con picos de probabilidad en algún lugar.

4voto

Assembler Puntos 545

En la función mad de R, utiliza los términos "lo-mediana" para decribir su algoritmo A, "hi-mediana" para describir el redonde hacia arriba, y simplemente "mediana" para describir su algoritmo B (que, como otros han señalado, es de lejos la definición más común).

¡Curiosamente, no existe tal opción en la función median() de R! (Pero la función quantile() de R tiene type para un control más preciso.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X