6 votos

¿Cómo lidiar con limitaciones de RAM cuando se trabaja con grandes conjuntos de datos en R?

Actualmente estoy jugando con el conjunto de datos MNIST (http://yann.lecun.com/exdb/mnist/) en R. El conjunto de entrenamiento es el tamaño de 60000x748 y parece drenar toda mi memoria, aún cuando la construcción de modelos sencillos, como la regresión logística.

Mi pregunta es: ¿cómo hacer que los chicos suelen tratar con grandes conjuntos de datos en R?

Y la tangente: es factible romper el conjunto de datos en fragmentos más pequeños, la construcción de un modelo en cada uno, luego de realizar un promedio ponderado de los valores de la predicción?

4voto

Peter Puntos 1

Yo se basan en tener un sistema operativo de 64 bits y ejecución de 64 bits R y aun así me sigue accidente.

Dependiendo de lo que quieras hacer, echa un vistazo a este CRAN sitio. Lamentablemente, debido a mi gran marco de datos fue el uso de métodos mixtos, biglm no era bueno para mí. He leído en ff y que no se ajustaba a mis necesidades, ya que el método que se utiliza para guardar y recuperar y de espacio en el disco no funciona con un número de métodos de análisis que estoy utilizando. El bigmemory y asociados paquetes no parecen ser del todo compatible con los marcos de datos, aunque las matrices aparecen manejado con bastante facilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X