Ventajas de utilizar la media para resumir la tendencia central de una calificación de 5 puntos
Como mencionó @gung, creo que a menudo hay muy buenas razones para tomar la media de un ítem de cinco puntos como índice de tendencia central. Yo ya he se han esbozado estas razones aquí .
Parafraseando:
- la media es fácil de calcular
- La media es intuitiva y se entiende bien
- La media es un número único
- Otros índices suelen dar una ordenación similar de los objetos
Por qué la media es buena para Amazon
Piensa en los objetivos de Amazon al informar sobre la media. Puede que su objetivo sea
- proporcionar una clasificación intuitiva y comprensible para un artículo
- garantizar la aceptación del sistema de clasificación por parte de los usuarios
- garantizar que los ciudadanos entienden el significado de la clasificación para que puedan utilizarla adecuadamente para tomar decisiones de compra
Amazon proporciona algún tipo de media redondeada, recuentos de frecuencia para cada opción de valoración y el tamaño de la muestra (es decir, el número de valoraciones). Esta información es, presumiblemente, suficiente para que la mayoría de la gente pueda apreciar tanto el sentimiento general respecto al artículo como la confianza en dicha valoración (es decir, un 4,5 con 20 valoraciones es más probable que sea preciso que un 4,5 con 2 valoraciones; un artículo con 10 valoraciones de 5 estrellas y una de 1 estrella sin comentarios podría seguir siendo un buen artículo).
Incluso se podría ver la media como una opción democrática. Muchas elecciones se deciden en función de qué candidato obtiene la media más alta en una escala de dos puntos. Del mismo modo, si se toma el argumento de que cada persona que envía una crítica obtiene un voto, entonces se puede ver la media como una forma que pondera el voto de cada persona por igual.
¿Son realmente un problema las diferencias en el uso de la balanza?
Existe una amplia gama de sesgos de calificación conocidos en la literatura psicológica (para una revisión, véase Saal et al 1980), como el sesgo de tendencia central, el sesgo de indulgencia, el sesgo de rigurosidad. Además, algunos calificadores serán más arbitrarios y otros más fiables. Algunos pueden incluso mentir sistemáticamente dando falsas valoraciones positivas o negativas. Esto creará varias formas de error cuando se intente calcular la verdadera calificación media de un ítem.
Sin embargo, si se tomara una muestra aleatoria de la población, estos sesgos se anularían y, con un tamaño de muestra suficiente de calificadores, se seguiría obteniendo la media real.
Por supuesto, no se obtiene una muestra aleatoria en Amazon, y existe el riesgo de que el conjunto particular de calificadores que se obtiene para un artículo esté sistemáticamente sesgado para ser más indulgente o estricto, etc. Dicho esto, creo que los usuarios de Amazon apreciarían que las valoraciones enviadas por los usuarios procedan de una muestra imperfecta. También creo que es bastante probable que con un tamaño de muestra razonable, en muchos casos, la mayoría de las diferencias de sesgo de respuesta empezarían a desaparecer.
Posibles avances más allá de la media
En cuanto a la mejora de la precisión de la calificación, yo no cuestionaría el concepto general de la media, sino que creo que hay otras formas de estimar la verdadera calificación media de la población para un elemento (es decir, la calificación media que se obtendría si se pidiera a una gran muestra representativa que calificara el elemento).
- Ponderar a los evaluadores en función de su fiabilidad
- Utilizar un sistema de calificación bayesiano que estime la calificación media como una suma ponderada de la calificación media de todos los elementos y la media del elemento específico, y aumentar la ponderación del elemento específico a medida que aumenta el número de calificaciones
- Ajuste la información de un evaluador basándose en cualquier tendencia general de calificación en los ítems (por ejemplo, un 5 de alguien que suele dar 3 valdría más que alguien que suele dar 4).
Por lo tanto, si el objetivo principal de Amazon fuera la precisión en la valoración, creo que debería esforzarse por aumentar el número de valoraciones por artículo y adoptar algunas de las estrategias mencionadas. Estos enfoques podrían ser especialmente relevantes a la hora de crear clasificaciones de "los mejores". Sin embargo, para la humilde calificación de la página, es muy posible que la media de la muestra cumpla mejor los objetivos de simplicidad y transparencia.
Referencias
- Saal, F.E., Downey, R.G. y Lahey, M.A. (1980). Calificación de las calificaciones: Evaluación de la calidad psicométrica de los datos de calificación. Psychological Bulletin, 88, 413.