Tengo un conjunto de datos que tiene 660.000 muestras con 72 características y estoy intentando realizar una selección de características para poder entrenar un clasificador bayes ingenuo. El problema es que como el conjunto de datos es tan grande, no puedo procesar todo el archivo sin que mi ordenador se congele. Originalmente planeé realizar la clasificación de características con ganancia de información tomando sólo una submuestra de los datos. El problema es que cada vez que ejecuto mi programa, obtengo un orden diferente para las características.
Intento averiguar qué porcentaje de datos de formación necesito para obtener una medida precisa de mi ganancia de información.