21 votos

¿Es la mediana más justa que la media?

Hace poco leí el consejo de que, por lo general, hay que utilizar la mediana y no la media para eliminar los valores atípicos. Ejemplo: El siguiente artículo http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/

tiene 16 reseñas por el momento:

review = c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review)  ## "ordinary" summary

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.000   3.750   5.000   4.062   5.000   5.000 

Porque utilizan Media el articulo obtiene 4 estrellas pero si usaran Mediana obtendría 5 estrellas.

¿No es la mediana un juez "más justo"?


Un experimento demuestra que el error de la mediana es siempre mayor que el de la media. ¿Es peor la mediana?

library(foreach)

# the overall population of bookjudgments
n <- 5
p <- 0.5
expected.value <- n*p
peoplesbelieve <- rbinom(10^6,n, p)

# 16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat    <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), 
                   median=median(ratings[i,]))

# which mean square error is bigger? Mean's or Median's?
meansqrterror.mean   <- mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median <- mean((stat[,"median"]-expected.value)^2)

res <- paste("mean MSE",meansqrterror.mean)
res <- paste(res, "| median MSE", meansqrterror.median)
print(res)

2voto

BandonRandon Puntos 1197

Lo bueno de utilizar la mediana para las valoraciones por estrellas es que los usuarios inteligentes (conscientes del uso de la mediana) no "jugarán" con el sistema:

Si un usuario racional piensa que la calificación adecuada debería ser 4 estrellas, pero actualmente tiene 4,5 estrellas, entonces la mejor manera de llegar a cuatro estrellas (suponiendo que haya habido más de seis votos) es votar 1 estrella en un sistema de calificación basado en la media.

Mientras que en un sistema basado en la mediana, la elección racional del usuario es simplemente votar exactamente el número de estrellas que cree que debería tener el producto.

Es algo así como el equivalente de la subasta de segundo precio para los sistemas de clasificación por estrellas.

2voto

Nick Cox Puntos 22819

Varias buenas respuestas aún dejan espacio para más comentarios.

En primer lugar, nadie ha objetado la idea de que la mediana tiene por objeto eliminar los valores atípicos, pero voy a matizarla. El significado pretendido es evidente, pero es fácil que los datos reales sean más complicados. Como mucho, la mediana pretende descartar o ignorar los valores atípicos, pero ni siquiera eso está garantizado. Por ejemplo, con valoraciones de 1 1 1 5 5 5 la mediana y la media coinciden en 3, por lo que todo puede parecer bien. Pero un 5 extra inclinará la mediana a 5 y un 1 extra inclinará la mediana a 1. La media se movería alrededor de 0,286 en cada caso. Por lo tanto, la media es más resistente que la mediana. El ejemplo puede tacharse de inusual, pero no es escandaloso. Naturalmente, el argumento no es original. Un lugar donde se hace es en Mosteller, F. y Tukey, J.W. 1977. Análisis de datos y regresión. Reading, MA: Addison-Wesley, pp.34-35.

En segundo lugar, se han mencionado los medios recortados y la idea merece un mayor impulso. La media y la mediana no tienen por qué ser alternativas tajantes, de modo que el analista deba elegir (votar por) una u otra. Puede considerar todas las medias recortadas posibles basándose en el recorte de un determinado número de valores en cada cola . La tabla muestra como # el número de valores incluidos en el cálculo de la media:

  +----------------------------+
  | number    #   trimmed mean |
  |----------------------------|
  |      0   16         4.0625 |
  |      1   14       4.214286 |
  |      2   12       4.416667 |
  |      3   10            4.6 |
  |      4    8           4.75 |
  |      5    6       4.833333 |
  |      6    4              5 |
  |      7    2              5 |
  +----------------------------+

La imagen principal aquí es que usted puede elegir su tasa de descuento (ignorar tantos valores en cada cola como sospechosos) como una especie de seguro contra el riesgo de estar fuera debido a valores extremos. Lo que veo es un gradiente bastante suave entre la media y la mediana, lo que se espera aquí porque los posibles valores 1, 2, 3, 4, 5 están todos presentes en los datos. Se espera un gran salto en la secuencia con un valor atípico aislado.

Con los medios recortados no hay obligación de recortar el mismo número en cada cola, pero no me extenderé al respecto.

En tercer lugar, el ejemplo son las reseñas de Amazon. El contexto siempre es pertinente para orientar la forma de resumir los datos. . En el caso de las opiniones de Amazon, la mejor respuesta es leer las opiniones. Dado que tanto las notas altas como las bajas pueden deberse a motivos espurios (implícitamente: el autor de este libro es mi amigo) y/o irrelevantes para tu decisión (explícitamente: el revendedor me trató mal), no me parece que haya una implicación obvia sobre cómo resumir estos datos y, de hecho, al mostrarte la distribución, Amazon está siendo lo más informativo posible.

En cuarto lugar, y lo más elemental pero también fundamental de todo, ¿quién te hace elegir? A veces hay que indicar tanto la media como la mediana (y, como se ha dicho, también un gráfico de distribución).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X