Estoy estudiando las redes neuronales y softmax aparece mucho.
Entendí lo que hace el softmax: quita un conjunto de valores reales a una distribución de probabilidad, es decir, el nuevo conjunto puede ser interpretado como una distribución de probabilidad.
Mi pregunta es:
-
Durante el entrenamiento de las redes neuronales, ¿la temperatura de softmax es también un parámetro entrenable? Es decir, ¿la capa de softmax en las redes neuronales es sólo una función de supresión predefinida o también se entrena?
-
Seguramente, la gente de machine learning no inventó el softmax ya que recuerdo haber visto este tipo de función en las clases de física también, en algún lugar de la teoría de los gases de Botlzmann probablemente. ¿Cuál es el significado físico de softmax, es decir, la función de exponenciación? ¿Por qué exponer? Una función cuadrada, o cualquier otra función, también puede hacer el trabajo de cuantificación, cuando se normaliza con el denominador. Entonces, ¿por qué exponer? ¿Qué le confiere a la función?
Salud :)