Sí, claro.
¿Qué es la entropía cruzada?
Pensemos en qué es la entropía cruzada (EC). El coste de CE en el contexto de PyTorch u otros Frameworks puede significar una cosa diferente comparado con MATH. Originalmente la entropía cruzada es alguna forma de KL-divergencia entre distribuciones: https://sites.google.com/site/burlachenkok/articles/properties-of-kl-divergence
Razones:
-
En el contexto del Aprendizaje Automático, el primer argumento muy a menudo para CE es típicamente un vector de probabilidad simplex tal que tiene un componente igual a uno. La entrada para el CE es la función de masa de probabilidad (f.m.p.) en un caso discreto.
-
Dentro de PyTorch digamos que hay una transformación extra llamada en STATS como "transformación logística simétrica" que exp(fi(x)exp(f1(x))+exp(f2(x))+⋯+exp(fk(x))exp(fi(x)exp(f1(x))+exp(f2(x))+⋯+exp(fk(x)) Lo interesante es que es un mapeo biyectivo del espacio euclidano al simplex probabilístico.
Ahora bien, ¿qué es una regresión?
Regresión en el contexto de la teoría de la probabilidad significa Ez[y(x,z)|x]Ez[y(x,z)|x] donde por z I denota variables no observadas. En el contexto del aprendizaje automático, significa cualquier predictor con una variable escalar de salida única o múltiples variables escalares y no es necesaria la expectativa condicional.
Como puede ver, ya hay demasiada confusión con la terminología y los términos básicos de las estadísticas y el ML.
Si su modelo proporciona K salidas escalares (llamadas a veces logits) se puede enchufar en CE con la transformación logística simétrica. Para que conste, los logits no son más que puntuaciones sin ligar de R tal que la clase con la máxima puntuación es su predicción.
Creo que la respuesta es que puedes hacer lo que quieras, y la gente hace locuras con Pérdida en ESTADÍSTICAS, Optimización y Aplicaciones de Aprendizaje Profundo.
No puedo darte una respuesta exacta porque CE se plantea muy a menudo con modelos de clasificación por ejemplo en Deep Learning o con Árboles de Decisión. Pero si su pregunta porque el diseño de un sistema de este tipo - es mejor para permitir una mayor potencia expresiva en la construcción de pérdida.