Varias buenas respuestas aún dejan espacio para más comentarios.
En primer lugar, nadie ha objetado la idea de que la mediana tiene por objeto eliminar los valores atípicos, pero voy a matizarla. El significado pretendido es evidente, pero es fácil que los datos reales sean más complicados. Como mucho, la mediana pretende descartar o ignorar los valores atípicos, pero ni siquiera eso está garantizado. Por ejemplo, con valoraciones de 1 1 1 5 5 5 la mediana y la media coinciden en 3, por lo que todo puede parecer bien. Pero un 5 extra inclinará la mediana a 5 y un 1 extra inclinará la mediana a 1. La media se movería alrededor de 0,286 en cada caso. Por lo tanto, la media es más resistente que la mediana. El ejemplo puede tacharse de inusual, pero no es escandaloso. Naturalmente, el argumento no es original. Un lugar donde se hace es en Mosteller, F. y Tukey, J.W. 1977. Análisis de datos y regresión. Reading, MA: Addison-Wesley, pp.34-35.
En segundo lugar, se han mencionado los medios recortados y la idea merece un mayor impulso. La media y la mediana no tienen por qué ser alternativas tajantes, de modo que el analista deba elegir (votar por) una u otra. Puede considerar todas las medias recortadas posibles basándose en el recorte de un determinado número de valores en cada cola . La tabla muestra como # el número de valores incluidos en el cálculo de la media:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
La imagen principal aquí es que usted puede elegir su tasa de descuento (ignorar tantos valores en cada cola como sospechosos) como una especie de seguro contra el riesgo de estar fuera debido a valores extremos. Lo que veo es un gradiente bastante suave entre la media y la mediana, lo que se espera aquí porque los posibles valores 1, 2, 3, 4, 5 están todos presentes en los datos. Se espera un gran salto en la secuencia con un valor atípico aislado.
Con los medios recortados no hay obligación de recortar el mismo número en cada cola, pero no me extenderé al respecto.
En tercer lugar, el ejemplo son las reseñas de Amazon. El contexto siempre es pertinente para orientar la forma de resumir los datos. . En el caso de las opiniones de Amazon, la mejor respuesta es leer las opiniones. Dado que tanto las notas altas como las bajas pueden deberse a motivos espurios (implícitamente: el autor de este libro es mi amigo) y/o irrelevantes para tu decisión (explícitamente: el revendedor me trató mal), no me parece que haya una implicación obvia sobre cómo resumir estos datos y, de hecho, al mostrarte la distribución, Amazon está siendo lo más informativo posible.
En cuarto lugar, y lo más elemental pero también fundamental de todo, ¿quién te hace elegir? A veces hay que indicar tanto la media como la mediana (y, como se ha dicho, también un gráfico de distribución).