1 votos

¿Qué porcentaje de mi conjunto de entrenamiento debo utilizar para realizar la selección de características?

Tengo un conjunto de datos que tiene 660.000 muestras con 72 características y estoy intentando realizar una selección de características para poder entrenar un clasificador bayes ingenuo. El problema es que como el conjunto de datos es tan grande, no puedo procesar todo el archivo sin que mi ordenador se congele. Originalmente planeé realizar la clasificación de características con ganancia de información tomando sólo una submuestra de los datos. El problema es que cada vez que ejecuto mi programa, obtengo un orden diferente para las características.

Intento averiguar qué porcentaje de datos de formación necesito para obtener una medida precisa de mi ganancia de información.

0voto

marsel Puntos 16

¿Y si se toman las puntuaciones medias (o la media dividida por la norma) de todas las ejecuciones y luego se clasifican las características? Por cierto, creo que deberías calcular la importancia de las características a partir del conjunto de pruebas, no del conjunto de entrenamiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X