7 votos

¿Proceso de decisión de Markov en R para un software de sugerencia de canción?

Tenemos un reproductor de música que tiene diferentes listas de reproducción y sugiere automáticamente las canciones de la lista de reproducción actual estoy en. Lo que yo quiero el programa para aprender es, que si me salto la canción, se debe disminuir la probabilidad de que se jugarán en esta lista de reproducción de nuevo. Creo que esto es lo que se llama aprendizaje por refuerzo y he leído un poco acerca de los algoritmos, decidiendo que el proceso de decisión de Markov (MDP) parece ser exactamente lo que tenemos aquí. Sé que en MDP no es más que un estado, por lo que pensé que para este caso es la media de las diferentes listas de reproducción. Por ejemplo, dependiendo del estado (lista de reproducción) estoy en, elige las canciones que se piensa que se adapte de la mejor y conseguir "castigado" (saltando) si se ha tomado una decisión equivocada.

¿Ustedes piensan que este es el enfoque correcto? O le sugieren un algoritmo diferente? Todo esto lo hace aún ningún sentido, debo dar más información?

Si no suena bien, me gustaría pedir un poco de tutoriales o puntos de partida recibiendo sobre MDP en R. he buscado en internet, pero sólo han encontrado el MPD caja de herramientas en R y tipo de realidad no tiene sentido para mí. ¿Tiene alguna sugerencia?

2voto

DJohnson Puntos 1347

Esta pregunta es meses de edad ahora, pero sigue siendo interesante. Esto me suena como una enorme tabla de contingencia o de datos dispersos, tensor de problema. Esto no lo hace cualquiera de los MPD o refuerzo de los problemas de aprendizaje en nada, simplemente se vuelven a alinear el marco estadístico dentro de los cuales están modelados.

La decisión o la variable dependiente es si es o no una canción de un potencial muy grande la lista de reproducción se presenta elegido y, una vez elegido, si se rechaza o se reproducen. Me corrija si estoy equivocado, pero no puede esta ser tratados con efecto de codificación o 0, 1 para sí/no -- se juega? - y -1 si es rechazada?

Basado en la pregunta, no veo ninguna razón para tratar a este como un proceso secuencial de la cadena de Markov o longitudinal de la serie de tiempo, en particular, dada la naturaleza aleatoria de los sorteos de la lista de reproducción, pero puede ser convencido de lo contrario. Las excepciones a esta regla podría incluir la consideración de si el algoritmo es el de "aprender" de la canción de preferencias como una función, por ejemplo, de género.

Dispersión sería una función del intervalo para el periodo en el que las decisiones son agregados como así también el tamaño de la lista de reproducción. Si el intervalo es demasiado corto o la lista de reproducción es demasiado grande, la dispersión es el resultado inevitable.

El estado-of-the-art para el tensor de modelado son probablemente David Dunson los papeles, por ejemplo, Bayesiano Tensor de Regresión, pero hay un montón de gente con un montón de papeles de trabajo en este campo (ver DDs papeles en su Duque sitio web para las revisiones).

0voto

Mike P. Puntos 111

Es cierto que hay un Aprendizaje por Refuerzo problema aquí. El refuerzo negativo sería cuando la persona se salta la canción, y positivo cuando él/ella no. La acción en este caso sería la elección de la canción, y quería que el estado se encuentra una lista de reproducción. No creo que sea una buena idea. En primer lugar, usted tendría un variado número de canciones (por lo tanto las acciones) por lista de reproducción de (estado) que no tiene mucho sentido.

Me gustaría generalizar un poco:

  • estado: por ejemplo, el estado de ánimo del individuo o de la música de preferencia de la persona.
  • acción: seleccione un tipo de música o artista, por ejemplo.
  • recompensa: negativo cuando se omite, de lo contrario 0 o positivo.

De esta manera el método es más genérico, y la meta de datos (tipo de música, artista, ..) puede ser fácilmente extraído de un archivo MP3, por ejemplo.

No he usado ningún paquete de R con Pdm, pero este enlace me parece interesante: El Aprendizaje por refuerzo en R: el Proceso de Decisión de Markov (MDP) y el Valor de la Iteración

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X