8 votos

¿Qué software (de pago o gratuito) existe para aprender conjuntos de datos grandes?

¿Existe software disponible (o incluso solo documentos relevantes) que pueda realizar aprendizaje multiclase en conjuntos de datos de más de 200 millones de muestras con más de 50 clases y más de 1000 características?

¿Cuáles son los límites en tamaños de conjunto de datos para redes neuronales? ¿Ensamble de árboles de decisiones? SVM?

Como ejemplo: Microsoft ha desarrollado un código que puede construir árboles de decisiones en un clúster de 1 kilonodo de 600 millones de muestras por árbol sobre 32 clases con 2000 características. Se tarda un día en entrenar 3 árboles.

¿Existen programas de acceso público que puedan hacer esto para CUALQUIERA de los algoritmos de aprendizaje anteriores?

2voto

Nadeem Puntos 106

Puedes intentar usar Weka. Ha implementado una gran colección de algoritmos de clasificación. En tu caso definitivamente querrás experimentar con la velocidad de los algoritmos dado tu conjunto de datos. Los algoritmos Naive Bayes y (Lib)SVM son conocidos por ser bastante rápidos. También prueba el algoritmo LibLINEAR en lugar de LibSVM, a veces es mejor para conjuntos de datos grandes. [NOTA: los paquetes LibLINEAR y LibSVM no vienen instalados en Weka por defecto, pero la versión de desarrollo 3.7.6 de Weka ofrece un gestor de paquetes para instalarlos fácilmente]

También podrías querer usar la opción de Seleccionar atributos de Weka para encontrar las características más informativas y eliminar características innecesarias.

En general; yo empezaría a aprender solo con una fracción del conjunto de datos y luego aumentaría desde ahí. Puede ser que tu rendimiento no mejore con más datos (aunque una regla general del aprendizaje automático dice "cuantos más datos, mejor").

0voto

Aram Hăvărneanu Puntos 118

Similar al Weka, también puedes probar SCaVis. Puedes crear contenedores de datos grandes utilizando el lenguaje Python (o Java, Groovy, Ruby - todos son compatibles con SCaVis). Creo que si no quieres crear un contenedor en memoria, intenta usar el objeto PFile que puede escanear tus datos línea por línea sin cargar todos los datos en la memoria

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X