Considere el escenario de sucesivas predicciones sobre el resultado de un evento deportivo, mientras que se está llevando a cabo. Voy a utilizar el tenis como un ejemplo concreto, porque ha definido claramente los momentos en los que es sensible a realizar una nueva predicción (es decir, después de cada punto se juega), pero también estoy interesado en casos como el fútbol, donde se pueden hacer predicciones con frecuencia arbitraria (por ejemplo, cada cinco segundos).
Después de cada punto del partido de tenis que se juega a un modelo de hace una predicción de dar la probabilidad de que cada jugador va a ir a ganar el partido. En un partido con $N$ de los puntos jugados, $N$ predicciones son hechas y mi pregunta es ¿cómo debe el comportamiento de estos $N$ predicciones resumirse en la idea de dar un valor único para el rendimiento del modelo en este partido?
Un punto de partida obvio sería el Brier Score, es decir, la media del error cuadrado de las predicciones. Sin embargo, este enfoque puede no ser adecuadamente sancionar a los valores atípicos (por ejemplo, un único terrible predicción entre los buenos. En el otro extremo, el error absoluto máximo que podría favorecer siempre a un mediocre conjunto de predicciones a través de un conjunto de muy buenas predicciones y una terrible profecía.
Cuál de estas posibilidades es más tolerable está abierto a debate, pero me parece que han descrito un problema general con el resumen de estadísticas. Lo que estoy más interesado en aprender acerca de los enfoques que están específicamente adaptados a mi escenario, es decir, que tome en cuenta el hecho de que estas predicciones se realizan en el mismo resultado, y cada predicción se realiza con cada vez más información.