22 votos

¿Entropía cruzada de Tensorflow para regresión?

¿Tiene sentido el coste de la entropía cruzada en el contexto de la regresión? (Si es así, ¿podría dar un ejemplo de juguete a través de tensorflow y si no, ¿por qué no?

Estaba leyendo sobre la entropía cruzada en Redes neuronales y aprendizaje profundo por Michael Nielsen y parece algo que podría ser utilizado naturalmente para la regresión, así como la clasificación, pero no entiendo cómo se podría aplicar de manera eficiente en tensorflow ya que las funciones de pérdida toman logits (que realmente no entiendo tampoco) y que están listados en Clasificación aquí

-1voto

Angus Peters Puntos 6

Sí, claro.

¿Qué es la entropía cruzada?

Pensemos en qué es la entropía cruzada (EC). El coste de CE en el contexto de PyTorch u otros Frameworks puede significar una cosa diferente comparado con MATH. Originalmente la entropía cruzada es alguna forma de KL-divergencia entre distribuciones: https://sites.google.com/site/burlachenkok/articles/properties-of-kl-divergence

Razones:

  1. En el contexto del Aprendizaje Automático, el primer argumento muy a menudo para CE es típicamente un vector de probabilidad simplex tal que tiene un componente igual a uno. La entrada para el CE es la función de masa de probabilidad (f.m.p.) en un caso discreto.

  2. Dentro de PyTorch digamos que hay una transformación extra llamada en STATS como "transformación logística simétrica" que exp(fi(x)exp(f1(x))+exp(f2(x))++exp(fk(x))exp(fi(x)exp(f1(x))+exp(f2(x))++exp(fk(x)) Lo interesante es que es un mapeo biyectivo del espacio euclidano al simplex probabilístico.

Ahora bien, ¿qué es una regresión?

Regresión en el contexto de la teoría de la probabilidad significa Ez[y(x,z)|x]Ez[y(x,z)|x] donde por z I denota variables no observadas. En el contexto del aprendizaje automático, significa cualquier predictor con una variable escalar de salida única o múltiples variables escalares y no es necesaria la expectativa condicional.


Como puede ver, ya hay demasiada confusión con la terminología y los términos básicos de las estadísticas y el ML.

Si su modelo proporciona K salidas escalares (llamadas a veces logits) se puede enchufar en CE con la transformación logística simétrica. Para que conste, los logits no son más que puntuaciones sin ligar de R tal que la clase con la máxima puntuación es su predicción.


Creo que la respuesta es que puedes hacer lo que quieras, y la gente hace locuras con Pérdida en ESTADÍSTICAS, Optimización y Aplicaciones de Aprendizaje Profundo.

No puedo darte una respuesta exacta porque CE se plantea muy a menudo con modelos de clasificación por ejemplo en Deep Learning o con Árboles de Decisión. Pero si su pregunta porque el diseño de un sistema de este tipo - es mejor para permitir una mayor potencia expresiva en la construcción de pérdida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X