¿Entropía cruzada de Tensorflow para regresión?

Question

¿Entropía cruzada de Tensorflow para regresión?

Preguntado el 12 de Julio, 2016: Cuando se hizo la pregunta
19000 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Tiene sentido el coste de la entropía cruzada en el contexto de la regresión? (Si es así, ¿podría dar un ejemplo de juguete a través de tensorflow y si no, ¿por qué no?

Estaba leyendo sobre la entropía cruzada en Redes neuronales y aprendizaje profundo por Michael Nielsen y parece algo que podría ser utilizado naturalmente para la regresión, así como la clasificación, pero no entiendo cómo se podría aplicar de manera eficiente en tensorflow ya que las funciones de pérdida toman logits (que realmente no entiendo tampoco) y que están listados en Clasificación aquí

Preguntado el 12 de Julio, 2016 por Rivten

Answer 1

1 Respuestas

Answer 2

-1voto

Angus Peters Puntos 6

Sí, claro.

¿Qué es la entropía cruzada?

Pensemos en qué es la entropía cruzada (EC). El coste de CE en el contexto de PyTorch u otros Frameworks puede significar una cosa diferente comparado con MATH. Originalmente la entropía cruzada es alguna forma de KL-divergencia entre distribuciones: https://sites.google.com/site/burlachenkok/articles/properties-of-kl-divergence

Razones:

En el contexto del Aprendizaje Automático, el primer argumento muy a menudo para CE es típicamente un vector de probabilidad simplex tal que tiene un componente igual a uno. La entrada para el CE es la función de masa de probabilidad (f.m.p.) en un caso discreto.
Dentro de PyTorch digamos que hay una transformación extra llamada en STATS como "transformación logística simétrica" que $\dfrac{exp(f_i(x)}{exp(f_1(x))+exp(f_2(x))+\dots + exp(f_k(x))}$ Lo interesante es que es un mapeo biyectivo del espacio euclidano al simplex probabilístico.

Ahora bien, ¿qué es una regresión?

Regresión en el contexto de la teoría de la probabilidad significa $E_{z}[y(x,z)|x]$ donde por z I denota variables no observadas. En el contexto del aprendizaje automático, significa cualquier predictor con una variable escalar de salida única o múltiples variables escalares y no es necesaria la expectativa condicional.

Como puede ver, ya hay demasiada confusión con la terminología y los términos básicos de las estadísticas y el ML.

Si su modelo proporciona K salidas escalares (llamadas a veces logits) se puede enchufar en CE con la transformación logística simétrica. Para que conste, los logits no son más que puntuaciones sin ligar de $\mathbb{R}$ tal que la clase con la máxima puntuación es su predicción.

Creo que la respuesta es que puedes hacer lo que quieras, y la gente hace locuras con Pérdida en ESTADÍSTICAS, Optimización y Aplicaciones de Aprendizaje Profundo.

No puedo darte una respuesta exacta porque CE se plantea muy a menudo con modelos de clasificación por ejemplo en Deep Learning o con Árboles de Decisión. Pero si su pregunta porque el diseño de un sistema de este tipo - es mejor para permitir una mayor potencia expresiva en la construcción de pérdida.

Respondido el 14 de Mayo, 2021 por Angus Peters (6 Puntos )

¿Entropía cruzada de Tensorflow para regresión?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Entropía cruzada de Tensorflow para regresión?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: