5 votos

¿Cómo es que la capa Softmax no puede converger nunca utilizando objetivos duros

Esta es una cita del libro de aprendizaje profundo de Ian Goodfellow ( página 236 ):

Aprendizaje de máxima probabilidad con un clasificador softmax y objetivos duros puede no converger nunca -- el softmax nunca puede predecir una probabilidad de exactamente 0 o 1...

He construido muchos modelos DNN y he utilizado la capa Softmax como una capa de clasificación, pero en realidad nunca me di cuenta de que esto es posible. En realidad, creo que tiene sentido, pero ¿por qué no nos enfrentamos a eso en la práctica? ¿Los marcos "terminan" el algoritmo de descenso de gradiente antes y manejan este problema internamente? He estudiado muchos libros y artículos sobre DNN, pero es la primera vez que leo algo al respecto. ¿O es válido sólo en algunos contextos?

1 votos

Es válido también para la regresión logística básica. no estoy muy seguro de entender lo que quieres decir. si te refieres a que, ante un problema "separable", el descenso gradiente se eterniza, entonces el uso de (por ejemplo, la regularización l2) lo resuelve.

5voto

PiPeep Puntos 1455

La redacción nunca convergen puede sonar demasiado fuerte, pero la afirmación real es

... el softmax nunca puede predecir una probabilidad de exactamente $0$ o exactamente $1$ , ...

Esto es ciertamente cierto en casi todos los casos. En este contexto, una convergencia significa que los datos de entrenamiento se ajustan perfectamente y que se obtiene un vector de probabilidades de un solo golpe para todas las entradas $x$ . En todos los demás casos, habrá alguna pérdida, lo que básicamente significa que el algoritmo aún no ha convergido. Y esto es exactamente lo que ocurre en la práctica: normalmente, el aprendizaje se detiene o bien cuando los investigadores no ven mejoras en el entrenamiento o bien cuando expira el límite de tiempo.

Por cierto, la cita está tomada del capítulo sobre Regularización, y allí los autores explican que ajustar perfectamente los datos de entrenamiento es una mala idea y la inyección de ruido en el proceso de aprendizaje realmente mejora la generalización.

1voto

user121270 Puntos 1059

¿por qué no lo afrontamos en la práctica?

Las predicciones para la clasificación multiclase se hacen tomando argmax sobre el vector de probabilidad, por lo que esto no es realmente un problema.

¿Los marcos "terminan" el algoritmo de descenso de gradiente antes y manejan este asunto internamente?

En el aprendizaje profundo normalmente no se tiene ninguna garantía de convergencia, por lo que la mayoría de los marcos de trabajo simplemente asumen que se especifica el número de iteraciones, o la tolerancia (por ejemplo se detiene si la pérdida logarítmica cambia menos de $\epsilon$ entre iteraciones).

También existe el problema de ser demasiado confiado, pero eso ya lo cubrió Maxim. Para un ejemplo concreto puede ver este documento .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X