Processing math: 100%

7 votos

Conjunto de datos de referencia para el algoritmo del árbol de decisiones

Estoy implementando un algoritmo de árboles de decisión, y me gustaría tener una idea de cómo se comporta en relación con otras implementaciones. ¿Alguien puede recomendar conjuntos de datos populares para entrenar y probar algoritmos de árboles de decisión? He encontrado algunos recursos como este , pero no estoy seguro ampliamente utilizado es.

3voto

Boris Tsirelson Puntos 191

Estás en el buen camino con el repositorio UCI. MLcomp es otro gran recurso, y automáticamente anotará su algoritmo en múltiples conjuntos de datos.

3voto

Lars Kotthoff Puntos 253

Recomendaría el repositorio UCI que está mencionando. Ha existido desde hace bastante tiempo, contiene muchos conjuntos de datos y con frecuencia se hace referencia en publicaciones científicas.

2voto

MattoxBeckman Puntos 827

Podrías intentar echar un vistazo a los conjuntos de datos de las competiciones Kaggle en kaggle.com. Algunos requieren un buen grado de pre-procesamiento, pero hay algunos conjuntos de datos relativamente 'limpios' allí. Puede ver cómo su algoritmo realiza presentando predicciones a competiciones actuales o pasadas y ver qué tan bien se desempeña en relación con otros participantes.

1voto

Chris Tybur Puntos 1269

Pensé que debería mencionar milksets , un envoltorio de Python alrededor de algunos conjuntos de datos UCI. Parece que tiene 7 de los conjuntos de datos, y los produce como un simple 2D Numpy matriz.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X