8 votos

Enfoques de minería de datos para el análisis de datos secuenciales con atributos nominales

Pregunta para los mineros de datos experimentados:

Teniendo en cuenta este escenario:

  • Hay N carros de la compra
  • Cada carro de la compra se llena con un número arbitrario de M artículos de un conjunto infinitamente grande (con la cantidad actual de datos que tengo, ese número arbitrario puede llegar a números alrededor de 1500)
  • El orden en el que se llena cada carro es significativo
  • Hay otros atributos, como la geolocalización del comprador, pero se pueden descartar (y de hecho se descartan) para simplificar el algoritmo

Lo necesito:

  • En un momento determinado, dados sólo los conjuntos ordenados de artículos en cada carro, identificar los carros "similares" sin conocimiento previo de las etiquetas de clase
  • Después de que se haya recogido una cierta cantidad de datos y de que un drudge trabaje a través de los datos y asigne etiquetas, cree un clasificador que pueda trabajar rápidamente con futuros datos no vistos

Planteamiento inicial:

  • Hasta ahora, mi enfoque se ha centrado en el primer punto. Mi método utiliza la agrupación de k-means y maneja la naturaleza secuencial de los datos utilizando una matriz de distancia generada mediante el cálculo de la distancia de Hamming entre carros. De este modo, [manzana, plátano, pera] es diferente de [pera, manzana, plátano], pero [manzana, plátano, pera] es menos diferente de [manzana, plátano, antílope]. El valor adecuado de k se determina mediante la investigación del coeficiente de silueta. Los clusters generados a partir de esto parecen tener sentido, pero el tiempo de ejecución de mi método será definitivamente prohibitivo a medida que mi conjunto de datos se amplíe.

Pregunta:

  • ¿Alguien tiene alguna sugerencia para un minero de datos novato para este problema?

Edita con más información:

  • He encontrado sugerencias que consideran el uso de características de n-gramas y su comparación por pares. Una preocupación que tengo al respecto es el orden: ¿se mantendrá el orden de las secuencias si se utilizan modelos de n-gramas? Además, veo que los problemas de rendimiento son una posibilidad mayor con este método.

1voto

Eran Medan Puntos 193

Yo también soy un minero de datos novato, pero me permito sugerir que el análisis exploratorio de datos es siempre un buen primer paso. Yo vería si se puede asignar a los artículos algún tipo de "valor de prioridad" que sirva para predecir lo pronto que aparecen en el carrito, ya que ese resultado puede permitirle utilizar modelos más sencillos. Algo tan simple como una regresión lineal sobre (#orden en el carro/número de artículos en el carro) para todos los carros que poseen el artículo X le dará una idea de si esto es posible. Supongamos que descubre que una determinada proporción de artículos aparece siempre antes o después, y que algunos parecen ser completamente aleatorios: esto le guiará en la construcción posterior del modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X