Me encuentro con un problema interesante y necesito ayuda para encontrar las mejores técnicas existentes para resolverlo. Sospecho que la respuesta acabará siendo la preparación de los datos para pasarlos por R. En este momento, no tengo una pregunta específica sobre R, sino que espero recibir algún consejo sobre el algoritmo que debo utilizar. Después de eso, ¡seguro que tendré preguntas de R a juego!
La configuración es que estamos analizando un gran sistema tratando de encontrar lo que yo llamo "subconjuntos ocultos". Utilizando números redondos, hay 1.000 piezas básicas diferentes que se utilizan en 10.000 combinaciones o "conjuntos" diferentes. (Yo llamo "ensamblaje" a una combinación completa única). Un ensamblaje puede tener 150 piezas, otro 700.
Lo que tratamos de hacer es detectar eficazmente los "subconjuntos ocultos". Es decir, grupos de piezas que aparecen juntos con frecuencia. Estoy seguro de que existe un cuerpo de investigación y práctica, algoritmos y métodos estadísticos para exactamente este problema... pero no sé lo que es, no puedo inventarlo yo mismo (triste pero cierto), y no conozco la terminología para buscarlo. ¿Puede alguien indicarme la dirección correcta? Esto parece un problema que se encontraría en la fabricación, cualquier cosa relacionada con grupos de personas, y la genética.
En caso de que no haya sido lo suficientemente claro, lo que estoy tratando de encontrar son grupos de piezas que se utilizan comúnmente (o siempre) juntos. Digamos que hay un tornillo #3 y que siempre se utiliza junto con una tuerca #3. Eso es lo que quiero decir con un "subconjunto oculto". En la práctica, es probable que encontremos subconjuntos ocultos mucho más grandes, pero puede que no sean 100% iguales en todos los conjuntos.
Estaría increíblemente agradecido por las sugerencias. Aunque no se me da bien inventar soluciones matemáticas, suelo ser capaz de encontrarlas (eventualmente) si se me indica la dirección correcta.