Un novato de las estadísticas está trabajando en un algoritmo para clasificar a los jugadores en un torneo.
Tengo un conjunto de jugadores de prueba, cada uno con un valor de "habilidad". Mi algoritmo simula un "torneo", en el que los jugadores se enfrentan entre sí (1v1) en algún orden (por ejemplo, emparejamiento suizo). Al final del torneo, tengo el rango resultante de cada jugador.
Por ejemplo, un conjunto de datos de muestra podría ser algo así:
Name | Tournament Rank | "True" Rank
Alex | 5 | 7
John | 1 | 2
Mike | 3 | 1
...
Así que John ganó el torneo a pesar de ser el segundo mejor jugador, y Mike es en realidad el mejor jugador, pero terminó tercero por suerte o lo que sea.
Teniendo en cuenta la "verdadera" habilidad de cada jugador y su clasificación en el torneo, ¿cómo puedo cuantificar mejor el rendimiento de mi algoritmo de torneo a la hora de clasificar a todo el mundo? Por ejemplo, quiero poder decir cosas como "Con este conjunto de parámetros de entrada, mi simulador de torneo coloca a la gente con un 10% más de precisión que con este otro conjunto de parámetros de entrada".
(Pregunta extra:)
Además, podría decirse que más importante que la clasificación exacta para mí es que los jugadores estén en el "grupo" correcto de jugadores. Por ejemplo, si divido los resultados en 5 secciones (20% superior, percentil 60-80, etc.), necesito que mi algoritmo de torneo coloque a la gente de forma fiable en el cubo en el que merecen haber terminado. ¿Haría algo diferente a lo anterior para comprobar la corrección de cómo la gente termina en los cubos?