Me gustaría poder publicar un ejemplo reproducible, pero lo siguiente se observa en un gran conjunto de datos específico que no puedo compartir. Un conjunto de variables muestra sistemáticamente una importancia alta de las variables (basada en permutaciones) en los bosques aleatorios. Sin embargo, si se omiten esas variables, el OOB y el MSE de la prueba no cambian. Tenga en cuenta que la sustitución de estas variables por sus residuos de una regresión (o incluso una RF) en todas las demás variables no cambia mucho la clasificación de la importancia de las variables. No se me ocurre ninguna explicación sólida para esta aparente contradicción.
Respuestas
¿Demasiados anuncios?No se me ocurre ninguna explicación sólida para esta aparente contradicción.
Esas variables podrían alcanzar la perfección suprema en la separación de las clases.
Sin embargo, es posible que las variables restantes, una vez descartadas las supremas, sigan siendo positivamente excelentes. Por lo tanto, no vería ninguna diferencia porque su conjunto de datos es muy fácil de clasificar.
El bosque aleatorio es robusto. Piense en él como un análogo ML a la mediana. Si se elimina un punto de un conjunto, no afecta mucho a la mediana.
¿Cómo mide su importancia? Si usted tiene muchos miles de filas, y una p del 1%, entonces usted podría tener un problema. Yo miraría el gráfico de importancias y me agruparía en él.
Es posible que la variable "importante" pueda "reconstruirse en conjunto" a partir de otras columnas más ruidosas. Esas columnas aparecerán como menos importantes por sí mismas, pero cuando falte la más importante, entrarán en juego.
Si puede dar un poco de detalle sobre cómo determinó la importancia, eso podría ayudar.