Parece que la política de la red determina una distribución de probabilidad $p(a \mid s)$ sobre los posibles movimientos de $a$ cuando en el estado del juego,$s$. Cuando el programa es buscar el juego árbol, lo hace en forma aleatoria, y $p$ determina el funcionamiento de esta búsqueda. La esperanza es que esta función de "guía" para el programa a buena movimientos que un jugador fuerte es probable que hacer. Esto tiene sentido porque cuando se busca en el juego árbol de las ramas que empiezan con los errores son menos relevantes cuando la evaluación de la actual posición de la junta directiva en contra de un oponente inteligente.
Cuando dicen que el despliegue de la política (yo creo que lo prestado el término "implementación" de backgammon) es lineal softmax función están refiriendo a una generalización de la función sigmoidea utilizados en la regresión logística. Esta función toma la forma
$$
\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}
$$
donde $x$ es un vector que es una función de la actual posición de la junta directiva (según el periódico el lineal softmax se utiliza sólo en el último paso de la política de la red) y $\beta_i$ es un vector de pesos que en conjunto determinan la probabilidad de que la red de políticas de elegir la acción $a_i$.