¿Lo que ' política de lanzamiento de s en AlphaGo ' papel de s?

Question

¿Lo que ' política de lanzamiento de s en AlphaGo ' papel de s?

Preguntado el 16 de Marzo, 2016: Cuando se hizo la pregunta
252 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

El papel es aquí.

La política de desarrollo... es una política lineal softmax basado en fast, computado de forma incremental, características locales basada en patrones...

No entiendo qué política de puesta en servicio es, y cómo se relaciona con la red de políticas de selección de un movimiento. ¿Cualquier explicación más simple?

Preguntado el 16 de Marzo, 2016 por Mohammadreza

Answer 1

1 Respuestas

Answer 2

11voto

JoanComasFdz Puntos 131

Parece que la política de la red determina una distribución de probabilidad $p(a \mid s)$ sobre los posibles movimientos de $a$ cuando en el estado del juego,$s$. Cuando el programa es buscar el juego árbol, lo hace en forma aleatoria, y $p$ determina el funcionamiento de esta búsqueda. La esperanza es que esta función de "guía" para el programa a buena movimientos que un jugador fuerte es probable que hacer. Esto tiene sentido porque cuando se busca en el juego árbol de las ramas que empiezan con los errores son menos relevantes cuando la evaluación de la actual posición de la junta directiva en contra de un oponente inteligente.

Cuando dicen que el despliegue de la política (yo creo que lo prestado el término "implementación" de backgammon) es lineal softmax función están refiriendo a una generalización de la función sigmoidea utilizados en la regresión logística. Esta función toma la forma

$$ \frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}} $$

donde $x$ es un vector que es una función de la actual posición de la junta directiva (según el periódico el lineal softmax se utiliza sólo en el último paso de la política de la red) y $\beta_i$ es un vector de pesos que en conjunto determinan la probabilidad de que la red de políticas de elegir la acción $a_i$.

Respondido el 16 de Marzo, 2016 por JoanComasFdz (131 Puntos )

¿Lo que ' política de lanzamiento de s en AlphaGo ' papel de s?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Lo que ' política de lanzamiento de s en AlphaGo ' papel de s?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: