11 votos

¿Lo que ' política de lanzamiento de s en AlphaGo ' papel de s?

El papel es aquí.

La política de desarrollo... es una política lineal softmax basado en fast, computado de forma incremental, características locales basada en patrones...

No entiendo qué política de puesta en servicio es, y cómo se relaciona con la red de políticas de selección de un movimiento. ¿Cualquier explicación más simple?

11voto

JoanComasFdz Puntos 131

Parece que la política de la red determina una distribución de probabilidad $p(a \mid s)$ sobre los posibles movimientos de $a$ cuando en el estado del juego,$s$. Cuando el programa es buscar el juego árbol, lo hace en forma aleatoria, y $p$ determina el funcionamiento de esta búsqueda. La esperanza es que esta función de "guía" para el programa a buena movimientos que un jugador fuerte es probable que hacer. Esto tiene sentido porque cuando se busca en el juego árbol de las ramas que empiezan con los errores son menos relevantes cuando la evaluación de la actual posición de la junta directiva en contra de un oponente inteligente.

Cuando dicen que el despliegue de la política (yo creo que lo prestado el término "implementación" de backgammon) es lineal softmax función están refiriendo a una generalización de la función sigmoidea utilizados en la regresión logística. Esta función toma la forma

$$ \frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}} $$

donde $x$ es un vector que es una función de la actual posición de la junta directiva (según el periódico el lineal softmax se utiliza sólo en el último paso de la política de la red) y $\beta_i$ es un vector de pesos que en conjunto determinan la probabilidad de que la red de políticas de elegir la acción $a_i$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X