1 votos

Volver a entrenar el bosque aleatorio con variables importantes

Tengo un problema de clasificación con unos 2000 predictores. Primero ejecuto un modelo de bosque aleatorio para obtener las variables importantes. A continuación, sólo utilizo esas variables (digamos las 30 más importantes) para volver a ejecutar el modelo. Obtuve una mejora sustancial en la precisión de la validación cruzada y en el AUC. Me pregunto si es una buena práctica y si hay alguna base teórica detrás de esto.

1voto

PeterTecks Puntos 36

Se puede considerar una técnica de regularización y, en general, es una gran idea reducir el espacio de características para reducir el sobreajuste. Además, como se utilizan bosques aleatorios, aumentan las posibilidades de que cada árbol individual obtenga alguna característica importante en lugar de una "basura", lo que puede ser importante si no se construye un gran número de árboles. Sin embargo, se trata de un acto de equilibrio y es posible que desee experimentar con el número de características principales que conserva.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X