Tenemos un reproductor de música que tiene diferentes listas de reproducción y sugiere automáticamente las canciones de la lista de reproducción actual estoy en. Lo que yo quiero el programa para aprender es, que si me salto la canción, se debe disminuir la probabilidad de que se jugarán en esta lista de reproducción de nuevo. Creo que esto es lo que se llama aprendizaje por refuerzo y he leído un poco acerca de los algoritmos, decidiendo que el proceso de decisión de Markov (MDP) parece ser exactamente lo que tenemos aquí. Sé que en MDP no es más que un estado, por lo que pensé que para este caso es la media de las diferentes listas de reproducción. Por ejemplo, dependiendo del estado (lista de reproducción) estoy en, elige las canciones que se piensa que se adapte de la mejor y conseguir "castigado" (saltando) si se ha tomado una decisión equivocada.
¿Ustedes piensan que este es el enfoque correcto? O le sugieren un algoritmo diferente? Todo esto lo hace aún ningún sentido, debo dar más información?
Si no suena bien, me gustaría pedir un poco de tutoriales o puntos de partida recibiendo sobre MDP en R. he buscado en internet, pero sólo han encontrado el MPD caja de herramientas en R y tipo de realidad no tiene sentido para mí. ¿Tiene alguna sugerencia?