2 votos

caret rfe selección de variables y predicción de pruebas

Tengo unas 800 variables continuas y una variable de respuesta categórica (enfermedad/no enfermedad) y he estado utilizando caret para clasificar la enfermedad basándome en las variables continuas.

He utilizado caret y he dividido mi conjunto de datos en entrenamiento y prueba (2/3 y 1/3 respectivamente) y he utilizado EN, RF, PLS y SVM para la clasificación. Obtengo un AUC aceptable tanto para el conjunto de entrenamiento como para el de prueba (alrededor del 75%).

Entonces quise utilizar alguna selección de características (rfe) para eliminar algunas variables de baja importancia/ruido. Quería algún consejo con respecto a esto.

  1. Ejecuto rfe (por ejemplo, rfe con rfFuncs) en el conjunto de datos de entrenamiento y luego predigo en la prueba. ¿Es correcto? ¿O se utiliza rfe en todo el conjunto de datos? Además, he visto en Internet a gente que utiliza rfe en un conjunto de datos de entrenamiento y luego crea un nuevo conjunto de datos basado en las nuevas variables seleccionadas con rfe (por ejemplo, 100 de 800). Luego usarían este nuevo conjunto de datos más pequeño y ejecutarían desde el principio un clasificador, por ejemplo, Elastic Net, como antes (en el mismo conjunto de datos de entrenamiento y luego predecir en la prueba). ¿Estaría bien o daría lugar a un sobreajuste?

  2. rfe con rfFuncs me da resultados muy variables dependiendo de la semilla que elija. ¿Cómo puedo evitarlo?

1voto

VarLogRant Puntos 284

Para el nº 1:

  • Utilizar la selección de características en el conjunto de entrenamiento y predecir el conjunto de prueba está bien.
  • Podría utilizar el conjunto seleccionado con otros modelos. Sin embargo, es posible que estos predictores no funcionen bien con otros modelos. En segundo lugar, se estimará que el rendimiento de los siguientes modelos es inadecuadamente optimista (ya que el siguiente modelo de entrenamiento no sabe que las características fueron seleccionadas).
  • La red elástica realiza su propia selección de características, así que ¿por qué utilizar ese modelo después de la selección?

Para el nº 2, utilice más remuestreos.

Max

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X