Estoy buscando métodos para clúster muy pequeños conjuntos de datos. Casi todos los métodos que he visto hablar de lo bien que trabajan en conjuntos de datos muy grandes.
Por pequeño que yo estoy hablando de los 5 elementos, 20elements, tal vez de 50 elementos. Se centró particularmente en 20 elementos.
Hay algunos métodos estándar no estoy viendo?
20 elementos, es sólo lo suficientemente pequeño que no sería viable a la fuerza bruta. Parece que va a ser capaz de utilizar algún método basado en programación entera mixta.
Para dar detalles acerca de mi problema en particular
Tengo, lo voy a llamar "modelos", y cada conjunto de modelos es de alrededor de 20 elementos. Los modelos son de lo que quiero clúster. Tengo unos 3000 conjuntos de modelos para el clúster, cada uno con alrededor de 20 elementos. Cada modelo se compone de dos cosas: Un IDENTIFICADOR (que los enlaces a otra información útil), y una función de probabilidad. Que la función de probabilidad toma en algunos datos y me dice cómo probable, de acuerdo a este modelo, que de los datos.
Cuando el uso de la colección de modelos, me evaluar los datos con cada uno de los modelos, y luego elige el modelo que da la probabilidad más alta como la que se ajusta mejor a este precio concreto de datos.
Yo inicialmente comenzar con un montón de modelos que están más o menos al azar en su calidad, sino que se han mejorado por un sistema separado para conseguir mejor y mejor en el modelado de determinados tipos de datos el tipo de datos que en la actualidad el modelo más). A menudo los dos (o más) de los modelos pueden ser buenas en el modelado de los mismos datos. Así que quiero utilizar la agrupación de tirar duplicado.
Así que evaluó a más de un conjunto de datos de todos los modelos y, a continuación, utilizar los resultados para determinar mi distence función entre los modelos.
Actualmente estoy investigando medidas, incluyendo Correlación entre los conjuntos de probabilidades de salida para el mismo punto, y también el "Costo de reemplazo", que es cuánto es el total de la probabilidad de todos los conjuntos de datos con este modelo es la mejor pasaría si uno de los otros modelos se utilizan en su lugar. Si al modelo de $i$ es el mejor, yo podría en lugar de utilizar el modelo de $j$ y no perder mucha probabilidad, a continuación, $i$ $j$ debe ser en general bastante similares (tengo que hacer este simétrica mediante la adición de la transpuesta).
No tengo (o más bien no quiere usar) un a priori de los datos sobre el número probable de clusters? Pero dado el número máximo de clusers es de uno por cada elemento, con el K-* tipo de agrupación no toma demasiado tiempo para evaluar todos los valores de K.
He estado jugando mucho con la propagación de afinidad y k-meniods. Acaba de empezar a jugar con la agrupación jerárquica ahora.