Soy nuevo en ciencia de datos y tiene un problema encontrar clústeres en un conjunto de datos con más de 200.000 filas y 50 columnas en R.
Dado que los datos numéricos y de las variables nominales, métodos como el de K-medios que utiliza la distancia Euclídea medida no parece una opción adecuada. Así que me dirijo a PAM, agnes y hclust que acepta una matriz de distancias como entrada.
La margarita método puede funcionar en mixto tipo de datos, pero la matriz de distancias es demasiado grande: de 200.000 200.000 veces es mucho más grande que 2^31-1 (la longitud del vector límite antes de R 3.0.0.)
La nueva R 3.0.0 publicado ayer apoya mucho con los vectores de longitud mayor que 2^31-1. Pero una doble matriz de 200.000 200.000 requiere de un continuo de RAM más grande que la de 16 gb que no es posible en mi máquina.
He leído acerca de la computación paralela y bigmemory paquete y no estoy seguro de si va a ayudar a: si estoy usando daisy, se genera una gran matriz que no caben en la memoria de todos modos.
Yo también he leído sobre el post acerca de muestreo: Es la muestra relevante en el momento de la 'big data'?
Así que en mi caso, es relevante para el uso de muestreo en el conjunto de datos, en el grupo de la muestra y luego inferir la estructura de todo el conjunto de datos?
Puede usted por favor darme alguna sugerencia? Gracias!
Acerca de mi máquina:
R versión 3.0.0 (2013-04-03)
Plataforma: x86_64-w64-mingw32/x64 (64-bit)
OS: Windows 7 de 64 bits
RAM: 16.0 GB