La máquina de la tarea de aprendizaje con bucle de retroalimentación

Question

La máquina de la tarea de aprendizaje con bucle de retroalimentación

Preguntado el 11 de Septiembre, 2011: Cuando se hizo la pregunta
693 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

¿Cuáles son las opciones disponibles si quiero realizar una puntuación de la tarea en un conjunto de observaciones que: a) tienen un conjunto de variables relacionadas a ellas y, b) cada ronda puedo obtener nueva información sobre el éxito de la última ronda.

Lo que quiero decir es, voy a empezar con una normal puntuación de la tarea: Utilizando la capacitación disponibles datos que desea clasificar cada observación en un nuevo conjunto de datos. Esta parte es sencilla y, naturalmente, puede ser realizado por una variedad de métodos diferentes. Sin embargo, la naturaleza del problema es que tengo los comentarios de este ranking, al ver cómo las observaciones de reaccionar. Específicamente, cuando el número de observaciones que se recogen de aquéllos con el puntaje más alto, la retroalimentación consiste en estos observación de una reacción positiva o negativamente a ellos de ser elegido. Esta información puede ser utilizada para la siguiente ronda, que es la realización de una nueva puntuación y recogiendo el próximo observaciones con los más altos puntajes.

¿Qué métodos matemáticos pueden ser utilizados para este proceso de retroalimentación de la información? ¿Cómo debería/podría el feedback ser utilizado en conjunción con el original (de fondo) de la información? Lo R paquetes que hay para estos tipos de máquina de la línea de los problemas de aprendizaje?

Preguntado el 11 de Septiembre, 2011 por Sajee

Answer 1

2 Respuestas

Answer 2

4voto

LexVjatkin Puntos 126

Parece que quieres de aprendizaje por refuerzo. Estoy teniendo un poco de problemas para el análisis de los detalles exactos de su problema específico, pero tal vez podría ser emitidos en el marco de un Multi-armed Bandit problema?

Respondido el 11 de Septiembre, 2011 por LexVjatkin (126 Puntos )

Answer 3

2voto

karatchov Puntos 230

alto a la derecha, suena como un refuerzo de la situación de aprendizaje. Aunque la mayoría de RL ejemplos implican un robot, RL puede ser aplicado a varios otros interactivo problema dominios.

Usted debe leer este ebook gratuito por Sutton y Barto, que es el estándar de trabajo para RL.

Ha habido cargas de evolución desde la redacción original del libro, aunque. Recomiendo que una vez que usted puede frase de su problema en RL formalidades, volver y preguntar qué tipo de algoritmos pueden ser utilizados para eso.

Respondido el 12 de Septiembre, 2011 por karatchov (230 Puntos )

La máquina de la tarea de aprendizaje con bucle de retroalimentación

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

La máquina de la tarea de aprendizaje con bucle de retroalimentación

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: