Tengo unas 800 variables continuas y una variable de respuesta categórica (enfermedad/no enfermedad) y he estado utilizando caret para clasificar la enfermedad basándome en las variables continuas.
He utilizado caret y he dividido mi conjunto de datos en entrenamiento y prueba (2/3 y 1/3 respectivamente) y he utilizado EN, RF, PLS y SVM para la clasificación. Obtengo un AUC aceptable tanto para el conjunto de entrenamiento como para el de prueba (alrededor del 75%).
Entonces quise utilizar alguna selección de características (rfe) para eliminar algunas variables de baja importancia/ruido. Quería algún consejo con respecto a esto.
-
Ejecuto rfe (por ejemplo, rfe con rfFuncs) en el conjunto de datos de entrenamiento y luego predigo en la prueba. ¿Es correcto? ¿O se utiliza rfe en todo el conjunto de datos? Además, he visto en Internet a gente que utiliza rfe en un conjunto de datos de entrenamiento y luego crea un nuevo conjunto de datos basado en las nuevas variables seleccionadas con rfe (por ejemplo, 100 de 800). Luego usarían este nuevo conjunto de datos más pequeño y ejecutarían desde el principio un clasificador, por ejemplo, Elastic Net, como antes (en el mismo conjunto de datos de entrenamiento y luego predecir en la prueba). ¿Estaría bien o daría lugar a un sobreajuste?
-
rfe con rfFuncs me da resultados muy variables dependiendo de la semilla que elija. ¿Cómo puedo evitarlo?