9 votos

Donde puedo encontrar los conjuntos de datos útiles para la prueba de mi propia Máquina de Aprendizaje de las implementaciones?

Actualmente estoy tratando de implementar algunos algoritmos de Aprendizaje automático en el mío propio. Muchos de ellos tienen la desagradable propiedad de ser difíciles de depurar, algunos errores no causan el programa de choque, sino que el trabajo no como la intención y parecen como de los algoritmos, sólo da más débiles resultados.

Me gustaría tener alguna manera de aumentar mi confianza en la aplicación, por ejemplo si he tenido algunos pequeños conjuntos de datos, con información adicional Algoritmos de "X trabajado para Y las iteraciones y resultados Z en este conjunto de datos", que sería realmente útil. Alguien ha oído hablar de este tipo de datos?

10voto

Sinestro Puntos 1

A partir de la UC Irvine de la Máquina de Aprendizaje Repositorio:

Actualmente mantenemos 223 conjuntos de datos como un servicio a la máquina de la comunidad de aprendizaje. Usted puede ver todos los conjuntos de datos a través de nuestra interfaz de búsqueda. Nuestro antiguo sitio web está disponible todavía, para los que prefieren el formato antiguo. ... Si usted desea donar un conjunto de datos, por favor consulte nuestra política donación. ... También hemos creado un sitio espejo para el Repositorio.

También, los siguientes MIAS conjunto de datos ha sido ampliamente utilizado y estudiado:

Cuando la evaluación comparativa de un algoritmo es recomendable el uso de un estándar de prueba de la base de datos (conjunto de datos) para que los investigadores sean capaces de comparar directamente los resultados. La mayoría de la mamografía de bases de datos no están disponibles públicamente. El más fácil de acceder a bases de datos y por lo tanto el más comúnmente utilizado bases de datos de la Imagen Mamográfica Análisis de la Sociedad (MIA) de la base de datos y la Base de datos Digital de la Mamografía de Detección (DDSM). Además, en la actualidad hay pocos proyectos de desarrollo de la nueva imagen mamográfica bases de datos, así como varios proyectos antiguos.

5voto

AlberT Puntos 6591

La UCI repositorio mencionado por Bashar es probablemente el más grande, sin embargo, yo quería añadir un par de pequeñas colecciones que me encontré:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X