En primer lugar, me gustaría recomendar la partida con los datos de ejemplo que se proporciona con el software. La mayoría de las distribuciones de software incluyen datos de ejemplo que puede utilizar para familiarizarse con el algoritmo sin tener que lidiar con tipos de datos y de lucha de los datos en el formato correcto para el algoritmo. Incluso si usted está construyendo un algoritmo a partir de cero, se puede empezar con el ejemplo de una implementación similar y comparar el rendimiento.
Segundo, se recomienda experimentar con los conjuntos de datos sintéticos para tener una idea de cómo el algoritmo realiza cuando usted sabe cómo se generaron los datos y la relación señal-ruido.
En R, puedes ver la lista de todos los conjunto de datos en los paquetes actualmente instalados con este comando:
data(package = installed.packages()[, 1])
El paquete de R mlbench real conjuntos de datos y puede generar sintéticas conjuntos de datos que son útiles para el estudio de rendimiento de algoritmos.
Python scikit-learn tiene datos de la muestra y genera sintético/juguete conjunto de datos.
SAS tiene la formación del conjunto de datos disponible para su descarga y el SPSS datos de la muestra se instala con el software en C:\Program Files\IBM\SPSS\Estadísticas\22\Samples
Por último, me gustaría ver los datos en el medio silvestre. Me gustaría comparar el rendimiento de diferentes algoritmos y parámetros de ajuste real de conjuntos de datos. Esto normalmente requiere mucho más trabajo porque raramente encontrarás conjunto de datos con tipos de datos y estructuras que se pueden colocar a la derecha en sus algoritmos.
Para los datos en el salvaje, me gustaría recomendar:
reddit del conjunto de datos de Archivo
KDnugget la lista