Supongamos que hemos construido un sistema de recomendación que (dada decir de la película rankings o lo que sea de muchos usuarios) producirá una lista de 10 recomendado películas para cada usuario para ver. Imagina que yo también tengo algún grupo grande de objetos de la película, junto con un registro de las evaluaciones de los usuarios, junto con las películas que realmente decidido a ver. Así que quiero utilizar este conjunto de datos para evaluar mi sistema.
He visto en la literatura que estos "sugerir algunos buenos elementos" tareas suelen ser evaluados con precisión, recall y F1-score (por ejemplo, ver [1]). Supongo que yo debería de estar interesados, en particular, en la "precisión a las 10". Sin embargo, no estoy muy seguro de cómo se supone que uno debe calcular estas medidas (o si hacen cualquier sentido) en el escenario que he descrito anteriormente.
Al parecer, la mejor cosa a hacer es al azar romper la muestra en un "entrenamiento" y una "prueba" de la parte. Y luego alimentar a los datos de entrenamiento para mi algoritmo, por lo que puede venir para arriba con una lista de las 10 predicciones.
Ahora precisión tiene algo de sentido, puedo comprobar a partir de las 10 predicciones de cómo muchos de estos se encuentran realmente en el cine visto por el usuario en los datos de prueba.
Sin embargo, para recordar, si el usuario visto un montón de películas en los datos de prueba, por ejemplo de 50 o así; no hay manera de obtener una "buena" recordar puntuación, simplemente porque mi sistema estaba limitado a producir sólo 10 películas y me gustaría conseguir en la mayoría de 1/5 = 0.2 de recordar.
Alternativamente, si me restringir la prueba sólo para adivinar el próximo 10 mirado" películas de el usuario (por que es una oportunidad para tener un "perfecto recall"), entonces la precisión y el recall siempre será exactamente el mismo número (si el número recomendado y el número relevante para el usuario es el mismo, la precisión y el recall también son siempre los mismos).
Estoy haciendo algo mal? O estas métricas simplemente no hacen mucho sentido en el escenario?