Tengo un problema de clasificación con unos 2000 predictores. Primero ejecuto un modelo de bosque aleatorio para obtener las variables importantes. A continuación, sólo utilizo esas variables (digamos las 30 más importantes) para volver a ejecutar el modelo. Obtuve una mejora sustancial en la precisión de la validación cruzada y en el AUC. Me pregunto si es una buena práctica y si hay alguna base teórica detrás de esto.
Respuesta
¿Demasiados anuncios?Se puede considerar una técnica de regularización y, en general, es una gran idea reducir el espacio de características para reducir el sobreajuste. Además, como se utilizan bosques aleatorios, aumentan las posibilidades de que cada árbol individual obtenga alguna característica importante en lugar de una "basura", lo que puede ser importante si no se construye un gran número de árboles. Sin embargo, se trata de un acto de equilibrio y es posible que desee experimentar con el número de características principales que conserva.