Tengo una red neuronal configurada para predecir algo donde la variable de salida es ordinal. Voy a describir a continuación utilizando tres posibles salidas A < B < C.
Es bastante obvio cómo utilizar una red neuronal para dar salida a datos categóricos: la salida es simplemente un softmax de la última capa (normalmente totalmente conectada), una por categoría, y la categoría predicha es la que tiene el mayor valor de salida (este es el valor por defecto en muchos modelos populares). He utilizado la misma configuración para los valores ordinales. Sin embargo, en este caso las salidas a menudo no tienen sentido, por ejemplo las salidas de la red para A y C son altas pero B es baja: esto no es plausible para los valores ordinales.
Tengo una idea para esto, que es calcular la pérdida basada en la comparación de las salidas con 1 0 0 para A, 1 1 0 para B, y 1 1 1 para C. Los umbrales exactos se pueden ajustar más tarde utilizando otro clasificador (por ejemplo, bayesiano), pero esto parece capturar la idea esencial de un ordenamiento de las entradas, sin prescribir ninguna escala de intervalo específico.
¿Cuál es la forma estándar de resolver este problema? ¿Hay alguna investigación o referencia que describa los pros y los contras de los diferentes enfoques?