3 años después, respondo a mi propia pregunta.
Para mí, la principal diferencia está en cuál es el resultado de los modelos en los diferentes problemas. En la regresión ordinal, la tarea consiste en predecir una etiqueta para una muestra determinada, por lo que el resultado de una predicción es una etiqueta (como es el caso, por ejemplo, de la clasificación multiclase). En cambio, en el problema de aprender a clasificar, el resultado es un orden de una secuencia de muestras. Es decir, el resultado de un modelo de clasificación puede considerarse como una permutación que hace que las muestras tengan etiquetas lo más ordenadas posible. Por lo tanto, a diferencia del modelo de regresión ordinal, el algoritmo de clasificación no es capaz de predecir una etiqueta de clase. Por ello, la entrada de un modelo de clasificación no necesita especificar etiquetas de clase, sino sólo un orden parcial entre las muestras (véase, por ejemplo, [0] para una aplicación de esto).
Esto se explica mejor con un ejemplo. Supongamos que tenemos los siguientes pares de (muestra, etiqueta): $\{(x_1, 1), (x_2, 2), (x_3, 2)\}$ . Dada esta información, un modelo de clasificación predecirá un ordena de esta secuencia de muestras. Por ejemplo, para un algoritmo de clasificación, las permutaciones $(1, 2, 3) \to (1, 2, 3)$ y $(1, 2, 3) \to (1, 3, 2)$ son predicciones con una puntuación perfecta ya que las etiquetas de ambas secuencias $\{(x_1, 1), (x_2, 2), (x_3, 2)\}$ y $\{(x_1, 1), (x_3, 2), (x_2, 2)\}$ se ordenan. Por otro lado, una regresión ordinal predeciría una etiqueta para cada una de las muestras, y en este caso la predicción (1, 2, 2) daría una puntuación perfecta, pero no (1, 2, 3) o (1, 3, 2).
[0] Optimización de los motores de búsqueda usando datos de clicks Thorsten Joachims