7 votos

El efecto de la temperatura en el muestreo térmico

Estaba leyendo este mientras yo encontraba:

La muestra de alta temperatura presenta una mayor variedad lingüística, pero la muestra de baja temperatura es más correcta gramaticalmente. Así es el mundo del muestreo por temperatura: bajar la temperatura permite centrarse en secuencias de salida de mayor probabilidad y suavizar las deficiencias del modelo.

¿Cómo se define el muestreo de temperatura?

En el sigmoide, la temperatura está en la parte inferior del exponente, por lo que sé que a medida que t--> infinito, la activación sigmoide tiende a 1. Por lo tanto, a mayor temperatura corresponde mayor entropía.

Concretamente, ¿cuál es la explicación del comportamiento cuando ->1 y 0? Intuitivamente, ¿cómo modifican estos límites la probabilidad para inducir el tipo de comportamiento antes mencionado (suavidad, argmax)?

También estoy viendo temparture en otros lugares como en el muestreo de temperatura por encima. ¿Es algo general?

8voto

AdamSane Puntos 1825

Obsérvese que partimos de un conjunto de probabilidades que suman 1. Definimos una función ( $f(p)$ donde el $i$ Componente de probabilidad $f_\tau(p)_i=\frac{p_i^{1/\tau}}{\sum_j p_j^{1/\tau}}$ ) para modificar esas probabilidades en función de la temperatura (para la cual las probabilidades originales tienen temperatura $\tau=1$ ). Si aumentamos $\tau$ de $1$ las probabilidades transformadas serían casi iguales y si disminuimos $\tau$ hacia 0, las probabilidades transformadas se "desplazan" hacia las mayores, alejándose de las menores.

Para $\tau=1$ : $\sum p_j=1$ así que cuando $\tau=1$ tienes $f(p)_i = p_i$ que es efectivamente la identidad.

Para $\tau\to 0$ tenga en cuenta que si tiene dos valores de $p$ , digamos $p_2 = k p_1$ (donde $k<1$ ) entonces $(p_2/p_1)^m = k^m$ . Ahora dejemos que $m \to \infty$ . Vemos que la proporción de un $p_i^m$ a una mayor irá a $0$ . En consecuencia, si tiene un conjunto de $p$ 's, entonces como $m$ aumenta $p_i^m/p_\text{largest}^m$ se desvanecerán, aparte de la $p$ mayor (que es $1$ ). Ahora bien, si sustituye $p_\text{largest}^m$ en el denominador con la suma de los $p_j^m$ sólo tienes que hacer el denominador ligeramente mayor (sólo estás sumando términos que van todos a $0$ ). Como resultado, la escala $f(p)_i=\frac{p_i^m}{\sum_j p_j^m}$ irán a $0$ en todo menos en lo más grande, que irá a $1$ . Por lo tanto, si selecciona entre los $i$ utilizando ese conjunto de $f$ como probabilidades, ya que $m\to\infty$ seleccionarás la más grande. Ahora $m=1/\tau$ y que $\tau\to 0$ y obtienes $m\to\infty$ y corresponde a la selección del $\text{argmax}$ .

Es fácil verlo numéricamente. Aquí hay 10 $p_i$ se generan como valores aleatorios uniformes ordenados y normalizados para que sumen 1 (se muestran en negro a continuación). Observe que el segundo y el tercer valor más grande están bastante cerca del más grande (el segundo más grande está realmente cerca del más grande en valor). A continuación, aumentamos la potencia en $f$ progresivamente. Los términos más pequeños disminuyen rápidamente hasta una cuota cero, mientras que el término más grande aumenta hasta 1. Los que están cerca del más grande en tamaño aumentan inicialmente su cuota (tienen $k$ cerca de $1$ en el debate anterior, por lo que su cuota se mantiene inicialmente cerca de la mayor $p$ pero el aumento de potencia pronto hace que el más grande sea mucho mayor que todos los demás términos).

Plot showing effect of increasing the power in $f(p)_i = p_i^m / sum_j p_j^m$, where all $f_i$ terms go to zero except the largest

En este ejemplo concreto, para cuando lleguemos a $m=300$ (es decir $1/\tau=300$ ), la probabilidad de seleccionar el término mayor es muy próxima a $1$ . En $\tau$ se acerca más a $0$ , $m=1/\tau$ aumenta sin límite, dejando sólo al argmax con alguna posibilidad de ser seleccionado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X