3 votos

bosque aleatorio: la omisión de variables de gran importancia no modifica el error de la prueba

Me gustaría poder publicar un ejemplo reproducible, pero lo siguiente se observa en un gran conjunto de datos específico que no puedo compartir. Un conjunto de variables muestra sistemáticamente una importancia alta de las variables (basada en permutaciones) en los bosques aleatorios. Sin embargo, si se omiten esas variables, el OOB y el MSE de la prueba no cambian. Tenga en cuenta que la sustitución de estas variables por sus residuos de una regresión (o incluso una RF) en todas las demás variables no cambia mucho la clasificación de la importancia de las variables. No se me ocurre ninguna explicación sólida para esta aparente contradicción.

1voto

user44816 Puntos 8

No se me ocurre ninguna explicación sólida para esta aparente contradicción.

Esas variables podrían alcanzar la perfección suprema en la separación de las clases.

Sin embargo, es posible que las variables restantes, una vez descartadas las supremas, sigan siendo positivamente excelentes. Por lo tanto, no vería ninguna diferencia porque su conjunto de datos es muy fácil de clasificar.

0voto

jws121295 Puntos 36

El bosque aleatorio es robusto. Piense en él como un análogo ML a la mediana. Si se elimina un punto de un conjunto, no afecta mucho a la mediana.

¿Cómo mide su importancia? Si usted tiene muchos miles de filas, y una p del 1%, entonces usted podría tener un problema. Yo miraría el gráfico de importancias y me agruparía en él.

Es posible que la variable "importante" pueda "reconstruirse en conjunto" a partir de otras columnas más ruidosas. Esas columnas aparecerán como menos importantes por sí mismas, pero cuando falte la más importante, entrarán en juego.

Si puede dar un poco de detalle sobre cómo determinó la importancia, eso podría ayudar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X