En mi trabajo, cuando las personas se refieren al valor "media" de un conjunto de datos, generalmente se refieren a la media aritmética (es decir, "promedio" o "valor esperado"). Si proporcionara la media geométrica, probablemente pensarían que estoy siendo sarcástico o poco útil, ya que la definición de "media" se conoce de antemano.
Estoy tratando de determinar si hay múltiples definiciones de la "mediana" de un conjunto de datos. Por ejemplo, una de las definiciones proporcionadas por un colega para encontrar la mediana de un conjunto de datos con un número par de elementos sería:
Algoritmo 'A'
- Divide el número de elementos por dos, redondea hacia abajo.
- Ese valor es el índice de la mediana.
- es decir, para el siguiente conjunto, la mediana sería
5
. [4, 5, 6, 7]
Esto parece tener sentido, aunque el aspecto de redondear hacia abajo parece un poco arbitrario.
Algoritmo 'B'
En cualquier caso, otro colega ha propuesto un algoritmo separado, que estaba en un libro de estadísticas de él (necesito obtener el nombre y autor):
- Divide el número de elementos por 2 y guarda una copia de los enteros redondeados hacia arriba y hacia abajo. Nómbrelos
n_lo
yn_hi
. - Toma la media aritmética de los elementos en
n_lo
yn_hi
. - es decir, para el siguiente conjunto, la mediana sería
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Esto parece estar mal, ya que el valor de la mediana, 5.5
en este caso, en realidad no está en el conjunto de datos original. Cuando cambiamos el algoritmo 'A' por 'B' en algo de código de prueba, falló horriblemente (como esperábamos).
Pregunta
¿Existe un nombre formal para estos dos enfoques para calcular la mediana de un conjunto de datos? ¿es decir, "menor-de-los-dos mediana" versus "promedio-de-los-elementos-intermedios-y-crear-nueva-mediana-de-datos"?
17 votos
Nunca he visto el algoritmo "A" considerado una mediana. No debería ser un problema que una estadística descriptiva de la tendencia central de los datos no esté entre los datos mismos: después de todo, la mayoría de las medias tampoco están en los datos. Una propiedad más fundamental que nos gustaría que tuviera la mediana es que no cambie cuando se invierte la secuencia de datos, ya que ordenar los datos de menor a mayor o de mayor a menor es una cuestión arbitraria de gusto. Por esta razón, la mayoría de los autores definen la mediana como en el algoritmo "B", porque es, con mucho, el procedimiento invariante de orden más simple posible.
1 votos
En cuanto a "no está en el conjunto de datos original": ¿es necesario que la media esté en el conjunto de datos original? ¿Hay alguna razón para requerir que la mediana lo esté?
0 votos
@R.M. En el contexto de nuestro software (procesamiento de imágenes médicas), estamos extrayendo los valores de mediana y moda de una vecindad de 26 vecinos y 3 longitudes (es decir, todos los voxels en una cuadrícula de 7x7x7, menos el voxel central = 342 voxels), y estamos realizando algunas operaciones de filtrado de mediana y modo en él. Una de las limitaciones para los algoritmos involucrados es que el valor de mediana y modo (pero no el promedio) debe ser un elemento dentro del conjunto de datos original sin modificar.
3 votos
@whuber El algoritmo 'A' a veces se llama la mediana baja. Por supuesto, también existe la mediana alta correspondiente. Típicamente, la mediana es el promedio de los dos (que puede ser o no un elemento del conjunto sobre el cual se calcula la mediana).
8 votos
Un buen momento y lugar para repetir el comentario de que los dos valores centrales en una muestra ordenada con un número par de observaciones... como 3 y 4 en 1, 2, 3, 4, 5, 6... deben ser considerados como comediantes (dicho independientemente por S.M. Stigler, R. Koenker, y sin duda otros).
1 votos
@user603 Gracias. Ten en cuenta que la mediana (como típicamente se define) se encuentra en el conjunto de datos si y solo si coincide tanto con la mediana baja como con la mediana alta.
3 votos
¿Ambos algoritmos no están perdiendo el paso crucial de ordenar los datos?
1 votos
Solo he visto "B" en uso, ya que cumple con la propiedad de colocar la mitad de los puntos de datos (que no están en la mediana misma) por encima y la otra mitad por debajo de la mediana. El otro algoritmo elige arbitrariamente el punto inferior, lo que da como resultado un sesgo hacia abajo.
1 votos
@Emil: no, no es necesario ordenar los datos para calcular una estadística de orden (ahorrando así un factor $\log n$ de los cálculos).
3 votos
Si necesitas que tu "mediana" siempre sea un elemento del conjunto de datos, es posible que en realidad estés buscando un medoide.
1 votos
@IlmariKaronen Teniendo en cuenta que algunos de nuestros algoritmos están calculando centroides, esta es una evaluación muy acertada. Gracias.
0 votos
Si estás preocupado por que el Algoritmo 'A' introduzca sesgo, podrías modificarlo para seleccionar el valor bajo o alto al azar, o seleccionar siempre el valor en un índice impar, o en un índice par. En cualquier caso, a la larga, el resultado será el mismo que en el Algoritmo 'B', pero en cada caso individual, la mediana será un miembro del conjunto dado.
0 votos
Wikipedia brinda nueve definiciones diferentes de cuantiles que son utilizadas por diferentes programas informáticos, a menudo por diferentes versiones del mismo programa. Por supuesto, todas las respuestas son similares, pero difieren en cómo dividir la diferencia cuando no hay un punto de datos único para elegir.