La distancia del transportista de tierra (EMD) proporciona una forma de hacer esto. Cuando se calcula entre distribuciones de probabilidad, el EMD es equivalente a la 1ra distancia de Wasserstein. De manera intuitiva, cada distribución puede imaginarse como una pila de tierra, que consiste en una cierta cantidad de tierra en cada ubicación. Una pila puede transformarse moviendo la tierra de una ubicación a otra. El trabajo se mide como la cantidad de tierra movida multiplicada por la distancia recorrida. El EMD se define como la cantidad mínima de trabajo necesaria para transformar una pila para que coincida con la otra.
En tu problema, hay múltiples clases, cada una correspondiente a uno de los 'niveles discretizados'. Las distancias entre las clases son las distancias entre los niveles correspondientes. El clasificador devuelve una probabilidad predicha de que la entrada sea miembro de cada clase. En la analogía de la pila de tierra, cada clase corresponde a una ubicación, y la probabilidad predicha define la cantidad de tierra. Para cada punto en el conjunto de entrenamiento, tienes una clase objetivo. Esto corresponde a una distribución de probabilidad que toma el valor uno para la clase objetivo y cero para todas las demás, es decir, toda la tierra se acumula en una sola ubicación.
En general, calcular el EMD requiere resolver un problema de optimización, donde buscamos posibles formas de transformar las pilas de tierra. Pero, el EMD tiene una expresión conveniente y cerrada en tu caso, porque solo hay una transformación que tiene sentido: mover directamente toda la tierra desde donde estaba originalmente a una sola ubicación objetivo. Supongamos que hay $l$ clases (representadas como enteros del 1 al $l$), y sea $D_{ij}$ la distancia entre las clases $i$ y $j$. Para un punto de datos dado con clase objetivo $c$, sea $p_i$ la probabilidad predicha por el clasificador de que la clase sea $i$. El EMD es:
$$\text{EMD}(p, c) = \sum_{i \ne c} p_i D_{ic}$$
Referencias relacionadas:
- Levina and Bickel (2001). La Distancia del Transportista de Tierra es la Distancia de Mallows: Algunas ideas desde la estadística.
- Frogner et al. (2015). Aprendizaje con una pérdida de Wasserstein.
- Hou et al. (2017). Pérdida de distancia cuadrada de transportistas de tierra para entrenar redes neuronales profundas en clases ordenadas.