Aumentar T por encima de 1 tiende a distribuir la probabilidad entre las entradas, mientras que disminuir T por debajo de 1 tiende a concentrar toda la probabilidad en la clase más probable.
En el límite en el que T alcanza el infinito (o incluso cientos, prácticamente hablando), todas las clases tendrán el mismo valor. En el límite en el que T llega a cero (o incluso 0.001), solo se seleccionará el valor máximo.
Incrementar la temperatura es una forma sencilla de corregir una red sobrecargada cuya salida máxima (incorporándose al softmax) está demasiado lejos de la siguiente salida más cercana.
El ajuste de temperatura 1/T escala efectivamente las entradas a la función softmax. Un T mayor que 1 acerca las entradas, y un T menor que 1 separa más las entradas. Dado que el Softmax divide la probabilidad de salida entre las entradas que están más cerca, acercando las entradas se distribuye la probabilidad entre las entradas.
Para responder a esta pregunta detalladamente, puede ser útil pensar cómo funciona el softmax sin temperatura.
Considera una capa softmax en la que solo dos entradas no son -infinito, y tienen valores 2 y 4.
Luego, al pasar por la capa softmax, el elemento más pequeño tendrá valor
$$\large P_i=\frac{e^{y_i}}{\sum_{k=1}^n e^{y_k}}=\frac{e^2}{e^2+e^4}=\frac{e^4}{e^4}\frac{e^{-2}}{e^{-2}+1} \approx e^-2 \approx \frac{1}{9}$$
¿Cómo cambia esto si las entradas son en cambio 12 y 14, ambas desplazadas la misma distancia a la derecha?
$$\large P_i=\frac{e^{y_i}}{\sum_{k=1}^n e^{y_k}}=\frac{e^{12}}{e^{12}+e^{14}}=\frac{e^{14}}{e^{14}}\frac{e^{-2}}{e^{-2}+1} \approx e^{-2} \approx \frac{1}{9}$$
No hace ninguna diferencia en absoluto: agregar una constante a todas las entradas resulta en un multiplicador constante después del exponencial que se puede sacar.
Ahora, ¿cómo cambia esto si aumentamos la distancia entre el 2 y el 4, por ejemplo, a 2 y 6:
$$\large P_i=\frac{e^{y_i}}{\sum_{k=1}^n e^{y_k}}=\frac{e^2}{e^2+e^6}=\frac{e^6}{e^6}\frac{e^{-4}}{e^{-4}+1} \approx e^{-4} \approx \frac{1}{81}$$
Cambiar la distancia entre la entrada máxima y las cercanas debajo de ella tiene un impacto importante en la salida: cuanto más cerca esté el segundo valor máximo del valor máximo, más se mezclarán los dos valores en la salida.
La "suavidad" de softmax está controlada por qué tan separadas están las entradas máximas. Una vez que están separadas en decenas o cientos, se convierte más en un hard-max en lugar de un softmax.
Lo que permite el campo de temperatura es controlar la distancia entre los valores que entran en la función softmax escalando directamente todo el conjunto.
Supongamos que queríamos suavizar el ejemplo más reciente anterior y acercar el 2 y el 6. Podríamos usar una temperatura de $T=2$:
$$\large P_i=\frac{e^{y_i}}{\sum_{k=1}^n e^{{y_k/T}}}=\frac{e^{2/2}}{e^{2/2}+e^{6/2}}=\frac{e^{1}}{e^{1}+e^{3}}=\frac{e^3}{e^3}\frac{e^{-2}}{e^{-2}+1} \approx e^{-2} \approx \frac{1}{9}$$
Aquí, la temperatura de $T = 2$ corta la distancia entre el 2 y el 6 a la mitad, suavizando la transición de uno a otro.
También podemos usar valores de T menores que 1 para AUMENTAR la distancia entre los valores que entran en softmax, y en el límite a medida que T->0, hacemos que el valor máximo esté infinitamente lejos del resto al entrar en la función exponencial. En código, esto se debe manejar como un caso especial que encuentra la salida máxima en lugar de seleccionar una salida de manera probabilística.
Entonces, los valores legales de T van desde 0 (elegir el máximo) hasta el infinito (donde todos los valores tendrían probabilidades iguales porque todos son 0 al entrar en softmax).