6 votos

¿Existe una alternativa a la entropía cruzada categórica con una noción de "distancia de clase"?

Tengo una señal $ x \in \mathbb{R}^{t \times l} $ que está discretizada en $ l = 32 $ niveles para $ t = 100000 $ puntos temporales. Esto me permite convertir un problema de regresión en un problema de clasificación, que es más manejable matemáticamente para mi aplicación.

Entiendo que el problema de clasificación debería abordarse con entropía cruzada categórica, y me doy cuenta de que en cualquier momento $t$, hay un nivel que es 1 en $ x $, por lo que probablemente la entropía cruzada categórica dispersa mejoraría esto.

Sin embargo, en este escenario del problema, hacer que $ l = 15 $ a 1 en lugar de $ l = 16 $ no es tan malo como establecer $ l = 1 $ a 1, ya que estos niveles tienen un orden natural.

¿Hay alguna manera de incorporar esta información en la función de pérdida?

He analizado la métrica de distancia de Wasserstein, pero no tengo suficiente conocimiento matemático para saber si tiene alguna función de pérdida cerrada para mis clases, pero hasta donde entiendo, haría algo similar.

4voto

throwaway Puntos 18

La distancia del transportista de tierra (EMD) proporciona una forma de hacer esto. Cuando se calcula entre distribuciones de probabilidad, el EMD es equivalente a la 1ra distancia de Wasserstein. De manera intuitiva, cada distribución puede imaginarse como una pila de tierra, que consiste en una cierta cantidad de tierra en cada ubicación. Una pila puede transformarse moviendo la tierra de una ubicación a otra. El trabajo se mide como la cantidad de tierra movida multiplicada por la distancia recorrida. El EMD se define como la cantidad mínima de trabajo necesaria para transformar una pila para que coincida con la otra.

En tu problema, hay múltiples clases, cada una correspondiente a uno de los 'niveles discretizados'. Las distancias entre las clases son las distancias entre los niveles correspondientes. El clasificador devuelve una probabilidad predicha de que la entrada sea miembro de cada clase. En la analogía de la pila de tierra, cada clase corresponde a una ubicación, y la probabilidad predicha define la cantidad de tierra. Para cada punto en el conjunto de entrenamiento, tienes una clase objetivo. Esto corresponde a una distribución de probabilidad que toma el valor uno para la clase objetivo y cero para todas las demás, es decir, toda la tierra se acumula en una sola ubicación.

En general, calcular el EMD requiere resolver un problema de optimización, donde buscamos posibles formas de transformar las pilas de tierra. Pero, el EMD tiene una expresión conveniente y cerrada en tu caso, porque solo hay una transformación que tiene sentido: mover directamente toda la tierra desde donde estaba originalmente a una sola ubicación objetivo. Supongamos que hay $l$ clases (representadas como enteros del 1 al $l$), y sea $D_{ij}$ la distancia entre las clases $i$ y $j$. Para un punto de datos dado con clase objetivo $c$, sea $p_i$ la probabilidad predicha por el clasificador de que la clase sea $i$. El EMD es:

$$\text{EMD}(p, c) = \sum_{i \ne c} p_i D_{ic}$$

Referencias relacionadas:

  • Levina and Bickel (2001). La Distancia del Transportista de Tierra es la Distancia de Mallows: Algunas ideas desde la estadística.
  • Frogner et al. (2015). Aprendizaje con una pérdida de Wasserstein.
  • Hou et al. (2017). Pérdida de distancia cuadrada de transportistas de tierra para entrenar redes neuronales profundas en clases ordenadas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X