50 votos

¿La "valoración media" de Amazon es engañosa?

Si he entendido bien, las valoraciones de los libros en una escala de 1 a 5 son puntuaciones Likert. Es decir, un 3 para mí puede no ser necesariamente un 3 para otra persona. Es una escala ordinal OMI. En realidad, no hay que calcular la media de las escalas ordinales, pero sí se puede tomar la moda, la mediana y los percentiles.

Entonces, ¿está "bien flexibilizar las reglas ya que la gran parte de la población entiende significa que las estadísticas anteriores? Aunque la comunidad investigadora rechaza enérgicamente que se tomen promedios de datos basados en la escala Likert, ¿está bien hacerlo con las masas (en la práctica)? En este caso, ¿tomar la media es incluso engañoso para empezar?

Parece poco probable que una empresa como Amazon se equivoque en las estadísticas básicas, pero si no es así, ¿qué me estoy perdiendo aquí? ¿Podemos afirmar que la escala ordinal es una aproximación conveniente al ordinal para justificar que se tome la media? ¿En qué se basa?

44voto

Eric Davis Puntos 1542

Ventajas de utilizar la media para resumir la tendencia central de una calificación de 5 puntos

Como mencionó @gung, creo que a menudo hay muy buenas razones para tomar la media de un ítem de cinco puntos como índice de tendencia central. Yo ya he se han esbozado estas razones aquí .

Parafraseando:

  1. la media es fácil de calcular
  2. La media es intuitiva y se entiende bien
  3. La media es un número único
  4. Otros índices suelen dar una ordenación similar de los objetos

Por qué la media es buena para Amazon

Piensa en los objetivos de Amazon al informar sobre la media. Puede que su objetivo sea

  • proporcionar una clasificación intuitiva y comprensible para un artículo
  • garantizar la aceptación del sistema de clasificación por parte de los usuarios
  • garantizar que los ciudadanos entienden el significado de la clasificación para que puedan utilizarla adecuadamente para tomar decisiones de compra

Amazon proporciona algún tipo de media redondeada, recuentos de frecuencia para cada opción de valoración y el tamaño de la muestra (es decir, el número de valoraciones). Esta información es, presumiblemente, suficiente para que la mayoría de la gente pueda apreciar tanto el sentimiento general respecto al artículo como la confianza en dicha valoración (es decir, un 4,5 con 20 valoraciones es más probable que sea preciso que un 4,5 con 2 valoraciones; un artículo con 10 valoraciones de 5 estrellas y una de 1 estrella sin comentarios podría seguir siendo un buen artículo).

Incluso se podría ver la media como una opción democrática. Muchas elecciones se deciden en función de qué candidato obtiene la media más alta en una escala de dos puntos. Del mismo modo, si se toma el argumento de que cada persona que envía una crítica obtiene un voto, entonces se puede ver la media como una forma que pondera el voto de cada persona por igual.

¿Son realmente un problema las diferencias en el uso de la balanza?

Existe una amplia gama de sesgos de calificación conocidos en la literatura psicológica (para una revisión, véase Saal et al 1980), como el sesgo de tendencia central, el sesgo de indulgencia, el sesgo de rigurosidad. Además, algunos calificadores serán más arbitrarios y otros más fiables. Algunos pueden incluso mentir sistemáticamente dando falsas valoraciones positivas o negativas. Esto creará varias formas de error cuando se intente calcular la verdadera calificación media de un ítem.

Sin embargo, si se tomara una muestra aleatoria de la población, estos sesgos se anularían y, con un tamaño de muestra suficiente de calificadores, se seguiría obteniendo la media real.

Por supuesto, no se obtiene una muestra aleatoria en Amazon, y existe el riesgo de que el conjunto particular de calificadores que se obtiene para un artículo esté sistemáticamente sesgado para ser más indulgente o estricto, etc. Dicho esto, creo que los usuarios de Amazon apreciarían que las valoraciones enviadas por los usuarios procedan de una muestra imperfecta. También creo que es bastante probable que con un tamaño de muestra razonable, en muchos casos, la mayoría de las diferencias de sesgo de respuesta empezarían a desaparecer.

Posibles avances más allá de la media

En cuanto a la mejora de la precisión de la calificación, yo no cuestionaría el concepto general de la media, sino que creo que hay otras formas de estimar la verdadera calificación media de la población para un elemento (es decir, la calificación media que se obtendría si se pidiera a una gran muestra representativa que calificara el elemento).

  • Ponderar a los evaluadores en función de su fiabilidad
  • Utilizar un sistema de calificación bayesiano que estime la calificación media como una suma ponderada de la calificación media de todos los elementos y la media del elemento específico, y aumentar la ponderación del elemento específico a medida que aumenta el número de calificaciones
  • Ajuste la información de un evaluador basándose en cualquier tendencia general de calificación en los ítems (por ejemplo, un 5 de alguien que suele dar 3 valdría más que alguien que suele dar 4).

Por lo tanto, si el objetivo principal de Amazon fuera la precisión en la valoración, creo que debería esforzarse por aumentar el número de valoraciones por artículo y adoptar algunas de las estrategias mencionadas. Estos enfoques podrían ser especialmente relevantes a la hora de crear clasificaciones de "los mejores". Sin embargo, para la humilde calificación de la página, es muy posible que la media de la muestra cumpla mejor los objetivos de simplicidad y transparencia.

Referencias

  • Saal, F.E., Downey, R.G. y Lahey, M.A. (1980). Calificación de las calificaciones: Evaluación de la calidad psicométrica de los datos de calificación. Psychological Bulletin, 88, 413.

16voto

Boris Pavlović Puntos 363

Todo el mundo tiene buenas opiniones al respecto. No creo que pueda añadir mucho más. Sin embargo, publicaré este :

15voto

Sean Hanley Puntos 2428

Para ser un poco técnico, esas calificaciones no son en realidad un Likert escala son sólo clasificaciones ordinales. Ahora bien, dicho esto, su argumento es esencialmente correcto. Sin embargo, a menudo pienso que se le da demasiada importancia a esta cuestión. Una cosa que hay que tener en cuenta es que normalmente se entiende que la media de un número de elementos ordinales puede ser aproximadamente un intervalo, y así, cuando hay muchas valoraciones la media se convierte en una representación más razonable. He encontrado esta respuesta por @JeromyAnglim para ser excelente (realmente, la pregunta y todas las respuestas concomitantes allí son dignas de leer). Para un tratamiento más teórico, véase aquí . En otro orden de cosas, me gusta Amazon, pero no veo ninguna razón para esperar de ellos una sofisticación estadística, especialmente en lo que respecta al diseño básico del sitio web: se trata de que los consumidores puedan utilizarlo, no de impresionar a los profesores de estadística.

3voto

Alistair Puntos 41

Según mi experiencia, la media de los datos de la escala de valoración suele ser la más correlacionada con el nivel de las métricas del mundo real que intentamos asociar a la escala de valoración. Hemos encontrado muchas relaciones lineales, por lo que la media es una de las mejores formas de resumir los datos. Dicho esto, como ha señalado Jeromy, la mayoría de las formas de analizar la tendencia central de una escala de valoración darán resultados similares (órdenes de clasificación, etc.) la mayoría de las veces.

Además, sospecho que a Amazon probablemente no le preocupe tanto la validez científica en un sentido u otro. El objetivo de Amazon, a fin de cuentas, es conseguir que la gente compre más en Amazon.com, y la forma en que las reseñas ayuden a conseguirlo probablemente no variará con cualquier resumen numérico que se utilice. Los buenos productos serán recompensados, los realmente malos castigados, y los compradores nerviosos tendrán la oportunidad de revisar los pros y los contras con más detalle.

2voto

aligf Puntos 128

Las valoraciones de Amazon son engañosas debido a que las empresas juegan con el sistema. Cuando se ofrece a los clientes rebajas y productos gratuitos a cambio de reseñas de 5 estrellas, las "estadísticas" de lo que es o significa el número de calificaciones se vuelven discutibles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X