4 votos

La máquina de la tarea de aprendizaje con bucle de retroalimentación

¿Cuáles son las opciones disponibles si quiero realizar una puntuación de la tarea en un conjunto de observaciones que: a) tienen un conjunto de variables relacionadas a ellas y, b) cada ronda puedo obtener nueva información sobre el éxito de la última ronda.

Lo que quiero decir es, voy a empezar con una normal puntuación de la tarea: Utilizando la capacitación disponibles datos que desea clasificar cada observación en un nuevo conjunto de datos. Esta parte es sencilla y, naturalmente, puede ser realizado por una variedad de métodos diferentes. Sin embargo, la naturaleza del problema es que tengo los comentarios de este ranking, al ver cómo las observaciones de reaccionar. Específicamente, cuando el número de observaciones que se recogen de aquéllos con el puntaje más alto, la retroalimentación consiste en estos observación de una reacción positiva o negativamente a ellos de ser elegido. Esta información puede ser utilizada para la siguiente ronda, que es la realización de una nueva puntuación y recogiendo el próximo observaciones con los más altos puntajes.

¿Qué métodos matemáticos pueden ser utilizados para este proceso de retroalimentación de la información? ¿Cómo debería/podría el feedback ser utilizado en conjunción con el original (de fondo) de la información? Lo R paquetes que hay para estos tipos de máquina de la línea de los problemas de aprendizaje?

4voto

LexVjatkin Puntos 126

Parece que quieres de aprendizaje por refuerzo. Estoy teniendo un poco de problemas para el análisis de los detalles exactos de su problema específico, pero tal vez podría ser emitidos en el marco de un Multi-armed Bandit problema?

2voto

karatchov Puntos 230

alto a la derecha, suena como un refuerzo de la situación de aprendizaje. Aunque la mayoría de RL ejemplos implican un robot, RL puede ser aplicado a varios otros interactivo problema dominios.

Usted debe leer este ebook gratuito por Sutton y Barto, que es el estándar de trabajo para RL.

Ha habido cargas de evolución desde la redacción original del libro, aunque. Recomiendo que una vez que usted puede frase de su problema en RL formalidades, volver y preguntar qué tipo de algoritmos pueden ser utilizados para eso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X