6 votos

¿Cómo ajustar la valoración media al tamaño de la muestra en sistemas de valoración con más de dos categorías?

Después de leer Cómo no clasificar por la calificación media que trata del intervalo de confianza para un parámetro Bernoulli ¿cómo lo extenderías a más de dos niveles?

Por ejemplo: Los ítems se puntúan entre 1 y 5 (1 es el peor 5 es el mejor). ¿Cuál es la mejor manera de ajustar la puntuación media por elemento para tener en cuenta el número de puntuaciones que ha recibido (¡un 5 no debería darle una media de 5!)?

Shame on you Amazon!

1voto

Yuval Filmus Puntos 123

Una forma de plantear su problema sería tratarlo como un estimación bayesiana problema.

Básicamente, esto significa tener una prioridad en su media y actualizar la media en función de cada nueva observación en el tiempo.

Una forma práctica, aunque teóricamente discutible, de conseguirlo es calcular la media en función de la media encontrada en el corpus y de las observaciones reales que se tienen para este elemento. Más concretamente, en el entorno del sistema de recomendación, esto podría significar que se inicializa la media con la media de la categoría del artículo que se está tratando (en su ejemplo "libros de estadística" probablemente) y luego se actualiza cada vez que un usuario da una calificación a este artículo en particular.

Puede diseñar una regla de actualización inteligente que tenga fundamentos estadísticos o confiar en el sentido común para producir rápidamente una regla de actualización básica como ésta:

X : item 
r_X^i : i-th rating for item X  
C : all item in the same category as X, discarding empty ratings
mean_C = (1/|C|) * sum_{c in C} sum_{i} (r_c^i)
# when no rating => use category mean
mean_X^0 = mean_C 
# when j ratings => ponderate category mean with actual ratings
mean_X^j = (1/n+1)(mean_C + sum_{i=1..n}(r_X^i)) 

Para tratar en general este tipo de problemas recomiendo la lectura de la obra de Koren y otros sobre el reto de Netflix . Obtuvieron bastante rendimiento al utilizar el aprendizaje no supervisado sobre las variables de usuario y de contenido, siendo la idea de utilizar la media de la categoría un primo similar, aunque ingenuo.

0voto

Victor K. Puntos 208

En el ejemplo que pones, sólo una persona ha revisado y ha dado una puntuación de 5/5. En este punto, yo diría que no tienes suficiente información para dar una estimación informativa de la media (o mediana). Las puntuaciones posibles son 1, 2, 3, 4 o 5, así que todo lo que podrías decir es que la media está entre 1 y 5 y que a una persona del planeta tierra le gusta mucho el libro.

Sin embargo, si tiene más personas que revisan, puede construir un intervalo de confianza para esa verdadera puntuación media de revisión. De este modo, podría dar un nivel de confianza y unos límites superior e inferior para la puntuación. (Por ejemplo, un 95% de confianza en que la puntuación del libro está entre 4,2 y 4,8). Estos límites se hacen más estrictos cuantos más revisores tenga, por lo que tienen en cuenta el número de puntuaciones recibidas.

Sin embargo, la típica teoría de los intervalos de confianza basada en Gauss sólo se sostiene cuando se tiene una muestra aleatoria de alguna población. En este caso, la población no está bien definida, tal vez las personas que han comprado el libro a través de ese sitio web. Además, yo no diría que los reseñadores online son una muestra aleatoria en absoluto. He comprobado que las reseñas de libros (al igual que muchas reseñas online) atraen a aquellas personas que se encuentran en los extremos y que aman u odian el producto. Pero tal vez sea mejor no insistir demasiado en estas cuestiones...

Creo que lo que estás insinuando es la idea de que si una persona dio a un libro 5/5, esto probablemente no debería ser considerado mejor que un promedio de, digamos, 4,5/5 que ha sido revisado por 200 personas. Y mencionaste "promedio", así que tal vez sólo quieres un resumen de un número que se pueda clasificar fácilmente.

No estoy muy familiarizado con el intervalo de puntuación de Wilson, pero parece que es similar al intervalo de confianza gaussiano, pero su construcción se basa en la estadística de puntuación.

Tal vez quieras buscar algún tipo de media ponderada que te penalice por tener una muestra pequeña.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X