Estoy implementando un algoritmo de árboles de decisión, y me gustaría tener una idea de cómo se comporta en relación con otras implementaciones. ¿Alguien puede recomendar conjuntos de datos populares para entrenar y probar algoritmos de árboles de decisión? He encontrado algunos recursos como este , pero no estoy seguro ampliamente utilizado es.
Respuestas
¿Demasiados anuncios?Estás en el buen camino con el repositorio UCI. MLcomp es otro gran recurso, y automáticamente anotará su algoritmo en múltiples conjuntos de datos.
Podrías intentar echar un vistazo a los conjuntos de datos de las competiciones Kaggle en kaggle.com. Algunos requieren un buen grado de pre-procesamiento, pero hay algunos conjuntos de datos relativamente 'limpios' allí. Puede ver cómo su algoritmo realiza presentando predicciones a competiciones actuales o pasadas y ver qué tan bien se desempeña en relación con otros participantes.
Pensé que debería mencionar milksets , un envoltorio de Python alrededor de algunos conjuntos de datos UCI. Parece que tiene 7 de los conjuntos de datos, y los produce como un simple 2D Numpy matriz.