Esta es una cita del libro de aprendizaje profundo de Ian Goodfellow ( página 236 ):
Aprendizaje de máxima probabilidad con un clasificador softmax y objetivos duros puede no converger nunca -- el softmax nunca puede predecir una probabilidad de exactamente 0 o 1...
He construido muchos modelos DNN y he utilizado la capa Softmax como una capa de clasificación, pero en realidad nunca me di cuenta de que esto es posible. En realidad, creo que tiene sentido, pero ¿por qué no nos enfrentamos a eso en la práctica? ¿Los marcos "terminan" el algoritmo de descenso de gradiente antes y manejan este problema internamente? He estudiado muchos libros y artículos sobre DNN, pero es la primera vez que leo algo al respecto. ¿O es válido sólo en algunos contextos?
1 votos
Es válido también para la regresión logística básica. no estoy muy seguro de entender lo que quieres decir. si te refieres a que, ante un problema "separable", el descenso gradiente se eterniza, entonces el uso de (por ejemplo, la regularización l2) lo resuelve.