Tengo datos de transacciones de un cliente de un restaurante de servicio rápido (QSR). Cada registro de este conjunto de datos representa una transacción. Mi objetivo es descubrir los productos que son los mejores candidatos para ser combinados juntos y ofrecidos a los clientes.
Tradicionalmente, habría realizado un análisis de la cesta de mercado con estos datos, utilizando métricas como La confianza , ascensor y soporte para revelar los artículos que más frecuentemente se compran juntos. Esto se conoce comúnmente como Reglamento de la Asociación o Afinidad análisis. [Véase el algoritmo apriori que utiliza estos principios].
Pero, aquí está el problema: el QSR ya ofrece comidas combinadas a sus clientes. Por ello, el análisis "descubre" grupos de productos que históricamente se ofrecían juntos en platos combinados. El análisis no revela nada que sea novedoso, es decir, productos que se ofrecido juntos también fueron los más frecuentes comprado juntos. Esto es de esperar porque la forma en que se hace tradicionalmente la MBA es una empírico encontrará productos que se compraron juntos en los datos históricos; no hay "proyección" (por así decirlo) en este método.
Así que ahora estoy considerando un enfoque alternativo: utilizar el análisis de conglomerados (por ejemplo, k-means) para identificar los productos que se agrupan. Para preparar los datos para este análisis, puedo crear un indicador ficticio (bandera binaria) para cada artículo que exista en el conjunto de datos. El análisis de conglomerados se realizaría basándose en (todos o algunos de) esos indicadores ficticios para agrupar las transacciones. Digamos que el análisis de conglomerados arroja cinco conglomerados. A continuación, examinaría cada conglomerado e identificaría las variables (indicadores ficticios) que predominan en cada conglomerado. Una forma de hacerlo sería mirar la relación entre la varianza entre clusters y la varianza dentro de los clusters ( $R^2$ a $(1-R^2)$ ) para cada variable.
He probado brevemente este enfoque, y parece que este método es capaz de mirar más allá de lo que se ofrecía conjuntamente históricamente, y rendir nuevo ideas de paquetes de productos (basados en artículos que se agrupan).
Mis preguntas son las siguientes: ¿Tiene sentido este enfoque? ¿Existen referencias (libros/documentos) sobre este método de análisis de la cesta de la compra (también conocido como análisis de paquetes de productos) utilizando la agrupación?
Actualización: Tenga en cuenta que no estoy pidiendo cómo para resolver el problema mencionado. Tengo una solución específica en mente, y pregunto si este enfoque tiene algún respaldo teórico, práctico, empírico o intuitivo.
PS: Hay una pregunta relacionada con esto ( enlace ), pero la respuesta que puede utilizar conjunto de elementos frecuentes es poco satisfactorio, ya que parece ser un nombre más para la minería de reglas de asociación. Todos los enfoques/técnicas siguientes permitirían obtener productos que se compraron juntos en el pasado, en lugar de productos que podrían no haberse comprado juntos en el pasado pero que son buenos candidatos para la agrupación: reglas de asociación, análisis de afinidad, algoritmo apriori, (y más generalmente) análisis de la cesta de la compra y análisis de paquetes de productos.