21 votos

¿Es la mediana más justa que la media?

Hace poco leí el consejo de que, por lo general, hay que utilizar la mediana y no la media para eliminar los valores atípicos. Ejemplo: El siguiente artículo http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/

tiene 16 reseñas por el momento:

review = c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review)  ## "ordinary" summary

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.000   3.750   5.000   4.062   5.000   5.000 

Porque utilizan Media el articulo obtiene 4 estrellas pero si usaran Mediana obtendría 5 estrellas.

¿No es la mediana un juez "más justo"?


Un experimento demuestra que el error de la mediana es siempre mayor que el de la media. ¿Es peor la mediana?

library(foreach)

# the overall population of bookjudgments
n <- 5
p <- 0.5
expected.value <- n*p
peoplesbelieve <- rbinom(10^6,n, p)

# 16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat    <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), 
                   median=median(ratings[i,]))

# which mean square error is bigger? Mean's or Median's?
meansqrterror.mean   <- mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median <- mean((stat[,"median"]-expected.value)^2)

res <- paste("mean MSE",meansqrterror.mean)
res <- paste(res, "| median MSE", meansqrterror.median)
print(res)

30voto

Krzysztof Kowalczyk Puntos 1995

El problema es que no ha definido realmente lo que significa tener una calificación buena o regular. En un comentario a la respuesta de @Kevin, sugieres que no te gusta que una mala valoración elimine un artículo. Pero comparando dos artículos en los que uno tiene un "historial perfecto" y el otro tiene una mala crítica, quizá debería reflejarse esa diferencia.

Hay todo un continuo (de alta dimensión) entre la mediana y la media. Puedes ordenar los votos por valor y, a continuación, hacer una media ponderada con los pesos en función de la posición en ese orden. La media corresponde a que todas las ponderaciones son iguales, la mediana corresponde a que sólo una o dos entradas en el medio reciben una ponderación distinta de cero, una media recortada corresponde a dar a todas excepto a la primera y a la última pareja la misma ponderación, pero también podrías decidir ponderar el $k$ de $n$ muestras con peso $\frac{1}{1 + (2 k - 1 - n)^2}$ o $\exp(-\frac{(2k - 1 - n)^2}{n^2})$ por poner algo al azar. Tal vez una media ponderada de este tipo, en la que los valores atípicos tengan menos peso, pero una cantidad distinta de cero, podría combinar las buenas propiedades de la mediana y la media.

23voto

Zizzencs Puntos 1358

La respuesta que obtenga dependerá de la pregunta que formule.

La media y la mediana responden a preguntas diferentes. Por tanto, dan respuestas diferentes. No es que una sea "más justa" que otra. Las medianas suelen utilizarse con datos muy asimétricos (como los ingresos). Pero, incluso en estos casos, a veces la media es lo mejor. Y a veces no se desea NINGUNA medida de tendencia central.

Además, siempre que dé una medida de tendencia central, deberá dar alguna medida de dispersión. Las combinaciones más habituales son media-desviación estándar y mediana-rango intercuartílico. En estos datos, dar sólo una mediana de 5 es, en mi opinión, engañoso o, al menos, poco informativo. La mediana también sería 5 si todos los votos fueran 5.

8voto

Slayd Puntos 111

Si las únicas opciones son números enteros comprendidos entre 1 y 5, ¿puede alguno considerarse realmente un valor atípico?

Estoy seguro de que, con muestras de pequeño tamaño, las pruebas populares de valores atípicos fallarán, pero eso no hace más que señalar los problemas inherentes a las muestras pequeñas. De hecho, dada una muestra de 5, 5, 5, 5, 5, 1, la prueba de Grubbs reporta 1 como un valor atípico en $\alpha = 0.05$ . La misma prueba para los datos que das arriba no identifica los 1 como valores atípicos.

Grubbs test for one outlier

data:  review  G = 2.0667, U = 0.6963,
p-value = 0.2153 alternative
hypothesis: lowest value 1 is an outlier

5voto

jacor Puntos 23

Un experimento demuestra que el error de la mediana es siempre mayor que el de la media.

Depende de la función de costes que utilices.

El MSE se minimiza con la media. Por lo tanto, si utiliza el MSE, la mediana siempre será peor que la media.

PERO, si se utilizara el error absoluto, ¡la media sería peor!

Aquí encontrará una buena explicación al respecto: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/

La elección depende de su problema y sus preferencias. Si no desea que los valores atípicos influyan en la posición del "punto central", elija la mediana. Si le preocupan los valores atípicos, elija la media.

4voto

Eric Davis Puntos 1542

Sólo un pensamiento rápido:

Si asume que cada valoración se extrae de una variable continua latente, entonces podría definir la mediana de esta variable continua subyacente de interés como su valor de interés, en lugar de la media de esta distribución subyacente. Si la distribución es simétrica, la media y la mediana estarían estimando las mismas cantidades. Si la distribución es sesgada, la mediana diferirá de la media. En este caso, en mi opinión, la mediana se correspondería más con lo que consideramos el valor típico. Esto ayuda a entender por qué la mediana de los ingresos y la mediana de los precios de la vivienda suelen indicarse en lugar de la media.

Sin embargo, cuando el número de valores discretos es pequeño, la mediana no funciona bien.

Tal vez, podría utilizar algún procedimiento de estimación de la densidad y luego tomar la mediana de eso, o utilizar alguna mediana interpolada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X