Gracias de antemano por soportarme, no soy un estadístico de ningún tipo y no sé cómo describir lo que estoy imaginando, así que Google no me está ayudando aquí...
Estoy incluyendo un sistema de clasificación en una aplicación web en la que estoy trabajando. Cada usuario puede calificar cada artículo exactamente una vez.
Estaba imaginando una escala con 4 valores: "fuertemente antipático", "antipático", "me gusta", y "fuertemente me gusta", y había planeado asignar estos valores de -5, -2, +2, y +5 respectivamente.
Ahora, si todos los artículos iban a tener el mismo número de calificaciones, entonces me sentiría bastante cómodo con este sistema de puntuación como para diferenciar claramente los artículos más y menos queridos. Sin embargo, los artículos no tendrán el mismo número de valoraciones, y la disparidad entre el número de votos en diferentes fotos puede ser bastante dramática.
En ese caso, la comparación de las puntuaciones acumuladas en dos ítems significa que un viejo ítem con muchas puntuaciones mediocres va a tener una puntuación mucho más alta que un nuevo ítem excepcional con muchos menos votos.
Así que, lo primero obvio que pensé de nosotros es que tomáramos un promedio... ...pero ahora si un ítem tiene sólo una calificación de "+5" tiene un mejor promedio que un ítem que tiene una calificación de 99 "+5" y una calificación de 1 "+2". Intuitivamente eso no es una representación exacta de la popularidad de un ítem.
Imagino que este problema es común y no necesitan que lo explique con más ejemplos, así que me detendré en este punto y elaboraré los comentarios si es necesario.
Mis preguntas son:
- ¿Cómo se llama este tipo de problema, y hay un término para las técnicas utilizadas para resolverlo? Me gustaría saberlo para poder leerlo.
- Si sabe de algún recurso accesible al público sobre el tema, le agradecería mucho un enlace.
- Por último, agradecería cualquier otra sugerencia sobre cómo recoger y analizar eficazmente este tipo de datos.
¡Muchas gracias por su tiempo!