Al construir un algoritmo de aprendizaje, buscamos maximizar una métrica de evaluación dada (digamos precisión), pero el algoritmo intentará optimizar una función de pérdida diferente durante el aprendizaje (digamos MSE / entropía).
Entonces, ¿por qué las métricas de evaluación no se utilizan como funciones de pérdida para el algoritmo de aprendizaje? ¿No estaremos optimizando la misma métrica que nos interesa?
¿Hay algo que este olvidando?