Obsérvese que partimos de un conjunto de probabilidades que suman 1. Definimos una función ( $f(p)$ donde el $i$ Componente de probabilidad $f_\tau(p)_i=\frac{p_i^{1/\tau}}{\sum_j p_j^{1/\tau}}$ ) para modificar esas probabilidades en función de la temperatura (para la cual las probabilidades originales tienen temperatura $\tau=1$ ). Si aumentamos $\tau$ de $1$ las probabilidades transformadas serían casi iguales y si disminuimos $\tau$ hacia 0, las probabilidades transformadas se "desplazan" hacia las mayores, alejándose de las menores.
Para $\tau=1$ : $\sum p_j=1$ así que cuando $\tau=1$ tienes $f(p)_i = p_i$ que es efectivamente la identidad.
Para $\tau\to 0$ tenga en cuenta que si tiene dos valores de $p$ , digamos $p_2 = k p_1$ (donde $k<1$ ) entonces $(p_2/p_1)^m = k^m$ . Ahora dejemos que $m \to \infty$ . Vemos que la proporción de un $p_i^m$ a una mayor irá a $0$ . En consecuencia, si tiene un conjunto de $p$ 's, entonces como $m$ aumenta $p_i^m/p_\text{largest}^m$ se desvanecerán, aparte de la $p$ mayor (que es $1$ ). Ahora bien, si sustituye $p_\text{largest}^m$ en el denominador con la suma de los $p_j^m$ sólo tienes que hacer el denominador ligeramente mayor (sólo estás sumando términos que van todos a $0$ ). Como resultado, la escala $f(p)_i=\frac{p_i^m}{\sum_j p_j^m}$ irán a $0$ en todo menos en lo más grande, que irá a $1$ . Por lo tanto, si selecciona entre los $i$ utilizando ese conjunto de $f$ como probabilidades, ya que $m\to\infty$ seleccionarás la más grande. Ahora $m=1/\tau$ y que $\tau\to 0$ y obtienes $m\to\infty$ y corresponde a la selección del $\text{argmax}$ .
Es fácil verlo numéricamente. Aquí hay 10 $p_i$ se generan como valores aleatorios uniformes ordenados y normalizados para que sumen 1 (se muestran en negro a continuación). Observe que el segundo y el tercer valor más grande están bastante cerca del más grande (el segundo más grande está realmente cerca del más grande en valor). A continuación, aumentamos la potencia en $f$ progresivamente. Los términos más pequeños disminuyen rápidamente hasta una cuota cero, mientras que el término más grande aumenta hasta 1. Los que están cerca del más grande en tamaño aumentan inicialmente su cuota (tienen $k$ cerca de $1$ en el debate anterior, por lo que su cuota se mantiene inicialmente cerca de la mayor $p$ pero el aumento de potencia pronto hace que el más grande sea mucho mayor que todos los demás términos).
En este ejemplo concreto, para cuando lleguemos a $m=300$ (es decir $1/\tau=300$ ), la probabilidad de seleccionar el término mayor es muy próxima a $1$ . En $\tau$ se acerca más a $0$ , $m=1/\tau$ aumenta sin límite, dejando sólo al argmax con alguna posibilidad de ser seleccionado.