Actualmente estoy jugando con el conjunto de datos MNIST (http://yann.lecun.com/exdb/mnist/) en R. El conjunto de entrenamiento es el tamaño de 60000x748 y parece drenar toda mi memoria, aún cuando la construcción de modelos sencillos, como la regresión logística.
Mi pregunta es: ¿cómo hacer que los chicos suelen tratar con grandes conjuntos de datos en R?
Y la tangente: es factible romper el conjunto de datos en fragmentos más pequeños, la construcción de un modelo en cada uno, luego de realizar un promedio ponderado de los valores de la predicción?