Voy a segundo @suncoolsu comentario: La dimensionalidad del conjunto de datos no es el único criterio que debe orientar hacia un software específico. Por ejemplo, si usted está planeando hacer de agrupamiento no supervisado o el uso de la PCA, hay varias herramientas especializadas que lidiar con grandes conjuntos de datos, como comúnmente encontrados en estudios de genómica.
Ahora, R (64 bits) se encarga de datos de gran tamaño bastante bien, y usted todavía tiene la opción para utilizar el almacenamiento en disco en lugar de la RAM de acceso, pero ver CRAN Vista de Tareas de Alto Rendimiento y la Computación en Paralelo con R. Estándar de GLM fácilmente acomodar 20,000 obs. (pero vea también speedglm) dentro de un plazo razonable, como se muestra a continuación:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Para dar una información más concreta de la ilustración, he usado R para procesar y analizar grandes datos genéticos (800 individuos x 800k SNPs, donde el principal modelo estadístico fue un estratificado GLM con varias covariables (2 min); que fue posible gracias a la eficiencia de R y C códigos disponibles en el snpMatrix paquete (en comparación, el mismo tipo de modelo tomó cerca de 8 min utilizando un dedicado de software C++ (plink). También he trabajado en un estudio clínico (12k pacientes x 50 variables de interés) y R se ajusta a mis necesidades. Por último, hasta donde yo sé, el lme4 paquete es el único software que permiten el ajuste modelo de efectos mixtos con desequilibrado y grandes conjuntos de datos (como es el caso en gran escala de evaluación de la educación).
Stata/SE es otro software que puede manejar el conjunto de datos grande. SAS y SPSS están basados en archivos de software, por lo que manejar grandes volúmenes de datos. Una revisión comparativa de software para minería de datos está disponible en Herramientas de Minería de Datos: cuál es el Mejor para CRM. Para la visualización, también hay un montón de opciones, quizás un buen comienzo es la Gráfica de conjuntos grandes de datos: visualización de un millón (revisado en el JSS por P Murrell), y todos los hilos en este sitio.