Tengo un conjunto de datos bajo este formulario:
Hay que saber que se trata de una estructura ordenada de datos. En otras palabras, el cliente 11676 compró el artículo 3297, lo calificó y luego compró el artículo 776 y lo calificó.
Basándonos en el historial de artículos comprados y valoraciones del usuario, queremos predecir la valoración del siguiente artículo. A mi entender, se trata de un problema de clasificación de secuencias (¿alguien puede confirmarlo?)
Lo que he hecho hasta ahora es transformar el conjunto de datos en la siguiente forma:
Custommer Item1 Item2 Item3 ... ItemN Actual_Item Target
11676 rating1 rating2 rating3 0 2310 1
Para ser más precisos, este es un ejemplo basado en las 2 primeras líneas de la captura de pantalla anterior:
Custommer Item3297 Item776 Item684 ActualItem Target
11676 0 0 0 3297 1
11676 1 0 0 776 1
11676 1 1 0 684 1
Si un artículo no ha sido comprado por el cliente, simplemente pongo 0 en su valoración (asumiendo que este número no se utiliza para las valoraciones) Hice esta transformación principalmente para poder utilizar algoritmos de clasificación clásicos (árboles de decisión, svm, bayes ingenuos multinomiales, etc. ....)
¿Es ésta una buena manera de transformar un problema de clasificación de secuencias en un problema de clasificación simple?