Tengo un conjunto de datos que consta de un cuarto de millón de objetos, cada uno de los cuales puede tener cualquiera, de 30 de características particulares. Así que voy a tener
Objeto 1: 3, función 7
Objeto 2: 3, característica 29, característica de los 30
Objeto 3: 3, función 7
Objeto 4: 1, característica de 18 años, cuentan con 20, característica de 28 de
...
En este momento sólo estoy haciendo análisis exploratorio. Estoy interesado en ver cómo las diferentes características que se relacionan: hace 29 de aparecer siempre con 30? Dispone de 7 a menudo se producen con la característica 3? Pueden característica de 10 predecirse a partir de las características 1, 2, y 3? Etc.
¿Qué tipos de análisis aquí son adecuadas? El problema es diferente de otros que han trabajado en el pasado, debido a que el espacio de estado es pequeña (cada objeto 'sostiene' meramente 30 bits de fácilmente compresible información), pero, paradójicamente, también de gran tamaño ($30 \choose 2$ es ya demasiado grande para fácilmente presentes, por lo que incluso pares interacciones son difíciles de estudiar, y $30 \choose 3$ es demasiado grande).
Mi primer pensamiento es algo que identifique que pares, triples, cuádruples, etc. tiene 'muy interesante' interacciones, aunque el examen de ellos individualmente no es factible. Pero tal vez hay cosas más interesantes que hacer?
Referencias básicas puede ser apropiado aquí (y se agradece si es relevante).