1 votos

¿Es una buena idea transformar un problema de clasificación de secuencias en un problema de clasificación simple de esta manera?

Tengo un conjunto de datos bajo este formulario:

enter image description here

Hay que saber que se trata de una estructura ordenada de datos. En otras palabras, el cliente 11676 compró el artículo 3297, lo calificó y luego compró el artículo 776 y lo calificó.

Basándonos en el historial de artículos comprados y valoraciones del usuario, queremos predecir la valoración del siguiente artículo. A mi entender, se trata de un problema de clasificación de secuencias (¿alguien puede confirmarlo?)

Lo que he hecho hasta ahora es transformar el conjunto de datos en la siguiente forma:

Custommer Item1 Item2  Item3 ...  ItemN    Actual_Item     Target

11676     rating1 rating2 rating3    0        2310               1  

Para ser más precisos, este es un ejemplo basado en las 2 primeras líneas de la captura de pantalla anterior:

Custommer Item3297 Item776 Item684  ActualItem Target
 11676       0         0       0          3297     1  
 11676       1         0       0          776      1
 11676       1         1       0          684      1

Si un artículo no ha sido comprado por el cliente, simplemente pongo 0 en su valoración (asumiendo que este número no se utiliza para las valoraciones) Hice esta transformación principalmente para poder utilizar algoritmos de clasificación clásicos (árboles de decisión, svm, bayes ingenuos multinomiales, etc. ....)

¿Es ésta una buena manera de transformar un problema de clasificación de secuencias en un problema de clasificación simple?

2voto

Shawn Puntos 1

Los datos típicos de las series temporales, como la temperatura, los datos del mercado de valores, etc., e incluso las frases del lenguaje natural pueden ser ejemplos de problemas de clasificación de secuencias. Ahora bien, en tu caso, si sólo estás hablando de predecir la valoración, también deberías pensar en predecir el siguiente artículo comprado. Podrías utilizar una RNN para predecir el siguiente artículo que se va a comprar y también su valoración. Por favor, lea más sobre las RNN.

Dicho esto, si no quieres usar RNNs, también podrías convertir el problema en un problema de clasificación normal como has hecho y debería funcionar.

Puede que esto no se aplique exactamente a su caso, pero una cosa que puede querer explorar es "N-Grams", "Bag of words", y "term document matrix". Básicamente, los N-gramas intentan tener en cuenta las frases en lugar de utilizar palabras sueltas como características. Si tiene una frase "Dejaré de beber café", sus gramos serán {Yo, dejaré, beber, café}. 2 gramos serán {"dejaré", "daré", "renunciar", "dejar de beber", "beber café"}. Por supuesto, no considerará todos los n-gramas como sus características, sólo aquellos n-gramas que aparezcan un número mínimo de veces.

De hecho, en algunos problemas regulares (no de aprendizaje profundo) de PNL, convierten los problemas de secuencia en problemas regulares de clasificación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X