19 votos

¿Cuáles son algunos buenos conjuntos de datos para obtener información básica sobre los algoritmos de aprendizaje automático y por qué?

Soy nuevo en el aprendizaje de máquina y buscando algunos de los conjuntos de datos a través de la cual puedo compara y contrasta las diferencias entre los distintos algoritmos de aprendizaje automático (Árboles de Decisión, Impulsar, SVM y Redes Neuronales)

Donde puedo encontrar este tipo de datos ? ¿Qué debo buscar al considerar un conjunto de datos ?

Sería genial si usted puede señalar algunos buenos conjuntos de datos y también me dicen lo que los hace un buen conjunto de datos?

16voto

Learner Puntos 1359

Los conjuntos de datos están disponibles en los siguientes sitios de forma gratuita. Estos conjuntos de datos se han utilizado para enseñar ML de algoritmos para los estudiantes porque la mayoría de nosotros obtener datos descripción junto con los conjuntos de datos. También, se ha dicho que tipo de algoritmos son aplicables.

  1. La UCI Machine Learning repository
  2. ML Comp
  3. MIAS
  4. Autonlab
  5. Mulan

Espero que esto ayude!

2voto

Pedro Lobito Puntos 104

En primer lugar, me gustaría recomendar la partida con los datos de ejemplo que se proporciona con el software. La mayoría de las distribuciones de software incluyen datos de ejemplo que puede utilizar para familiarizarse con el algoritmo sin tener que lidiar con tipos de datos y de lucha de los datos en el formato correcto para el algoritmo. Incluso si usted está construyendo un algoritmo a partir de cero, se puede empezar con el ejemplo de una implementación similar y comparar el rendimiento.

Segundo, se recomienda experimentar con los conjuntos de datos sintéticos para tener una idea de cómo el algoritmo realiza cuando usted sabe cómo se generaron los datos y la relación señal-ruido.

En R, puedes ver la lista de todos los conjunto de datos en los paquetes actualmente instalados con este comando:

data(package = installed.packages()[, 1])

El paquete de R mlbench real conjuntos de datos y puede generar sintéticas conjuntos de datos que son útiles para el estudio de rendimiento de algoritmos.

Python scikit-learn tiene datos de la muestra y genera sintético/juguete conjunto de datos.

SAS tiene la formación del conjunto de datos disponible para su descarga y el SPSS datos de la muestra se instala con el software en C:\Program Files\IBM\SPSS\Estadísticas\22\Samples

Por último, me gustaría ver los datos en el medio silvestre. Me gustaría comparar el rendimiento de diferentes algoritmos y parámetros de ajuste real de conjuntos de datos. Esto normalmente requiere mucho más trabajo porque raramente encontrarás conjunto de datos con tipos de datos y estructuras que se pueden colocar a la derecha en sus algoritmos.

Para los datos en el salvaje, me gustaría recomendar:

reddit del conjunto de datos de Archivo

KDnugget la lista

0voto

Darshan Chaudhary Puntos 103

En mi opinión, usted debe comenzar con pequeños conjuntos de datos que no tiene demasiadas características.

Un ejemplo sería el conjunto de datos Iris (de clasificación). Tiene 3 clases de 50 muestras de cada clase por un total de 150 puntos de datos. Un excelente recurso para ayudarle a explorar este conjunto de datos es este video de la serie de Datos de la Escuela.

Otro conjunto de datos de salida es la Calidad de los Vinos conjunto de datos de la UCI -ML repositorio. Se ha 4898 puntos de datos con 12 atributos.

La mejor de las suertes !

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X