Estoy buscando para conjuntos de 2 dimensiones de puntos de datos (cada punto de datos es un vector de dos valores (x,y)) después de diferentes distribuciones y formas. El código para generar este tipo de datos también sería útil. Quiero usar a la parcela / visualizar cómo algunos algoritmos de clustering realizar. Aquí están algunos ejemplos:
Respuestas
¿Demasiados anuncios?R viene con un montón de conjuntos de datos, y parece que no sería un gran problema para reproducir la mayoría de los ejemplos que citó con pocas líneas de código. Usted también puede encontrar las mlbench paquete de útiles, en particular sintéticas conjuntos de datos de partida con mlbench.*
. Algunos ejemplos se dan a continuación.
Encontrará otros ejemplos mirando el Clúster de la Vista de Tareas en CRAN. Por ejemplo, el fpc paquete tiene incorporado un generador de "cara" en forma de clúster de referencia de los conjuntos de datos (rFace
).
Consideraciones similares se aplican a Python, donde encontrará interesantes pruebas de referencia y bases de datos para la agrupación con la scikit-learn.
La UCI Machine Learning Repository alberga una gran cantidad de conjuntos de datos , pero es mejor que la simulación de los datos usted mismo con el idioma de su elección.
Aquí es un generador de clúster configurable. Se dirige sólo a cierta clase de conjuntos de datos, pero seguramente puede ser utilizado para las investigaciones de algoritmo de cluster.
Aquí está un ejemplo del tipo de grupos puede crear:
Afiliación de grupo se guarda en un archivo de texto. El código es open source bajo licencia MIT.
No puedo creer que nadie ha mencionado los datos Iris de Fisher.
Creo que no he visto una técnica de agrupamiento que no utilizan los datos del iris como un ejemplo.
En r, solo tipo "iris" para acceder a los datos.
Este es un ejemplo de una trama de iris bonito (y típico): http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/