Un clasificador de aprendizaje automático puede calibrarse para que cuando la probabilidad de que el punto de datos i sea de la clase A sea de 0,6, esto sea cierto el 60% de las veces.
En el entorno de la clase binaria, esto puede visualizarse con un curva de fiabilidad o medido con una métrica como el error medio de calibración, que es el error cuadrático medio ponderado entre las probabilidades previstas y las probabilidades reales en un gráfico de calibración ( ver aquí ).
Mi pregunta es, ¿cómo se extiende esto a la configuración multiclase? Está claro que no se puede visualizar, pero ¿es adecuada una curva de fiabilidad para cada clase? ¿O depende esto del clasificador que se utilice (por ejemplo, estoy utilizando un SVM con OVA). ¿Es la puntuación de Brier o la pérdida logarítmica la mejor manera de proceder (la volatilidad de la pérdida logarítmica me desanima un poco), o es posible (¿cómo?) extender el error medio de calibración a la multiclase (otra posibilidad es CAL, definida aquí )