27 votos

Estadísticas y herramientas de software para hacer frente a grandes conjuntos de datos de minería de datos

Actualmente tengo que analizar registros de aproximadamente de 20 M y construir modelos de predicción. Hasta ahora he probado Statistica, SPSS, RapidMiner y R. Entre estos Statistica parece ser más adecuado para hacer frente a la minería de datos y usuario de RapidMiner interfaz también es muy útil pero parece que RapidMiner, Statistica y SPSS son adecuados sólo para pequeños conjuntos de datos.

¿Alguien podría recomendar una buena herramienta para grandes conjuntos de datos?

¡ Gracias!

19voto

DavLink Puntos 101

Voy a segundo @suncoolsu comentario: La dimensionalidad del conjunto de datos no es el único criterio que debe orientar hacia un software específico. Por ejemplo, si usted está planeando hacer de agrupamiento no supervisado o el uso de la PCA, hay varias herramientas especializadas que lidiar con grandes conjuntos de datos, como comúnmente encontrados en estudios de genómica.

Ahora, R (64 bits) se encarga de datos de gran tamaño bastante bien, y usted todavía tiene la opción para utilizar el almacenamiento en disco en lugar de la RAM de acceso, pero ver CRAN Vista de Tareas de Alto Rendimiento y la Computación en Paralelo con R. Estándar de GLM fácilmente acomodar 20,000 obs. (pero vea también speedglm) dentro de un plazo razonable, como se muestra a continuación:

> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
   user  system  elapsed
  0.361   0.018    0.379

Para dar una información más concreta de la ilustración, he usado R para procesar y analizar grandes datos genéticos (800 individuos x 800k SNPs, donde el principal modelo estadístico fue un estratificado GLM con varias covariables (2 min); que fue posible gracias a la eficiencia de R y C códigos disponibles en el snpMatrix paquete (en comparación, el mismo tipo de modelo tomó cerca de 8 min utilizando un dedicado de software C++ (plink). También he trabajado en un estudio clínico (12k pacientes x 50 variables de interés) y R se ajusta a mis necesidades. Por último, hasta donde yo sé, el lme4 paquete es el único software que permiten el ajuste modelo de efectos mixtos con desequilibrado y grandes conjuntos de datos (como es el caso en gran escala de evaluación de la educación).

Stata/SE es otro software que puede manejar el conjunto de datos grande. SAS y SPSS están basados en archivos de software, por lo que manejar grandes volúmenes de datos. Una revisión comparativa de software para minería de datos está disponible en Herramientas de Minería de Datos: cuál es el Mejor para CRM. Para la visualización, también hay un montón de opciones, quizás un buen comienzo es la Gráfica de conjuntos grandes de datos: visualización de un millón (revisado en el JSS por P Murrell), y todos los hilos en este sitio.

8voto

rupello Puntos 3490

La mayoría de los algoritmos en Apache Mahout escala más allá de los registros de 20 M, incluso con datos multidimensional. Si sólo necesita construir un modelo de predicción, hay herramientas específicas como Vowpal Wabbit (http://hunch.net/~vw/) que fácilmente puede escalar a miles de millones de registros en una sola máquina.

7voto

merriam Puntos 67

Existe el paquete RHIPE (R-Hadoop integración). Es puede hacer muy fácil (con excepciones) para analizar grandes cantidades de datos en R.

4voto

KP. Puntos 1177

Es difícil dar una buena respuesta sin saber qué tipo de modelos tienes en mente.

Para regresión lineal, he utilizado con éxito el paquete de biglm en R.

4voto

Cebjyre Puntos 128

Dado que usted es la construcción de modelos predictivos a partir de grandes conjuntos de datos que usted puede beneficiarse de Google BigQuery (una versión hospedada de la tecnología de Google del trabajo de investigación en el enorme conjunto de datos de análisis con la Dremel). Puede exportar los resultados de la consulta como CSV para la ingestión en una predictivo clasificador, por ejemplo.

BigQuery tiene un WebUI que le permite ejecutar consultas y exportación de resultados. La beta (v1), la versión de BigQuery aparece una R de cliente, y la producción de la versión (v2) finalmente se tiene un R cliente así.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X