Estoy intentando predecir victorias/derrotas de partidos de tenis mediante la predicción de probabilidades de victoria de cada partido, y actualmente estoy pensando qué medidas de evaluación utilizar.
Además de utilizar medidas de evaluación globales como la puntuación Brier, examino la calibración del modelo y la capacidad de discriminación por separado. Tengo dudas sobre qué métricas es bueno utilizar para la discriminación de modelos específicamente.
He leído que para evaluar la discriminación de modelos se suele utilizar el AUROC. Sin embargo, creo que no es adecuado para mi aplicación, ya que no tiene sentido considerar umbrales distintos de 0,5. Además, medidas como la precisión/recuperación/puntuación F1 no parecen apropiadas debido a que mis clases están equilibradas (ganan o pierden, y ambas ocurren el 50% de las veces, por supuesto) y al hecho de que los falsos positivos tienen una importancia similar a los falsos negativos.
Por lo tanto, creo que utilizar simplemente la precisión de la predicción (fracción de victorias/pérdidas predichas correctamente) es una buena métrica para evaluar la discriminación del modelo. ¿Es correcto mi razonamiento? ¿Me he perdido algo? ¿Hay algún inconveniente en utilizar la precisión en esta aplicación?