Hace poco leí el consejo de que, por lo general, hay que utilizar la mediana y no la media para eliminar los valores atípicos. Ejemplo: El siguiente artículo http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
tiene 16 reseñas por el momento:
review = c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Porque utilizan Media el articulo obtiene 4 estrellas pero si usaran Mediana obtendría 5 estrellas.
¿No es la mediana un juez "más justo"?
Un experimento demuestra que el error de la mediana es siempre mayor que el de la media. ¿Es peor la mediana?
library(foreach)
# the overall population of bookjudgments
n <- 5
p <- 0.5
expected.value <- n*p
peoplesbelieve <- rbinom(10^6,n, p)
# 16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]),
median=median(ratings[i,]))
# which mean square error is bigger? Mean's or Median's?
meansqrterror.mean <- mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median <- mean((stat[,"median"]-expected.value)^2)
res <- paste("mean MSE",meansqrterror.mean)
res <- paste(res, "| median MSE", meansqrterror.median)
print(res)