Pregunta para los mineros de datos experimentados:
Teniendo en cuenta este escenario:
- Hay N carros de la compra
- Cada carro de la compra se llena con un número arbitrario de M artículos de un conjunto infinitamente grande (con la cantidad actual de datos que tengo, ese número arbitrario puede llegar a números alrededor de 1500)
- El orden en el que se llena cada carro es significativo
- Hay otros atributos, como la geolocalización del comprador, pero se pueden descartar (y de hecho se descartan) para simplificar el algoritmo
Lo necesito:
- En un momento determinado, dados sólo los conjuntos ordenados de artículos en cada carro, identificar los carros "similares" sin conocimiento previo de las etiquetas de clase
- Después de que se haya recogido una cierta cantidad de datos y de que un drudge trabaje a través de los datos y asigne etiquetas, cree un clasificador que pueda trabajar rápidamente con futuros datos no vistos
Planteamiento inicial:
- Hasta ahora, mi enfoque se ha centrado en el primer punto. Mi método utiliza la agrupación de k-means y maneja la naturaleza secuencial de los datos utilizando una matriz de distancia generada mediante el cálculo de la distancia de Hamming entre carros. De este modo, [manzana, plátano, pera] es diferente de [pera, manzana, plátano], pero [manzana, plátano, pera] es menos diferente de [manzana, plátano, antílope]. El valor adecuado de k se determina mediante la investigación del coeficiente de silueta. Los clusters generados a partir de esto parecen tener sentido, pero el tiempo de ejecución de mi método será definitivamente prohibitivo a medida que mi conjunto de datos se amplíe.
Pregunta:
- ¿Alguien tiene alguna sugerencia para un minero de datos novato para este problema?
Edita con más información:
- He encontrado sugerencias que consideran el uso de características de n-gramas y su comparación por pares. Una preocupación que tengo al respecto es el orden: ¿se mantendrá el orden de las secuencias si se utilizan modelos de n-gramas? Además, veo que los problemas de rendimiento son una posibilidad mayor con este método.