bosque aleatorio: la omisión de variables de gran importancia no modifica el error de la prueba

Question

bosque aleatorio: la omisión de variables de gran importancia no modifica el error de la prueba

Preguntado el 27 de Octubre, 2017: Cuando se hizo la pregunta
181 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Me gustaría poder publicar un ejemplo reproducible, pero lo siguiente se observa en un gran conjunto de datos específico que no puedo compartir. Un conjunto de variables muestra sistemáticamente una importancia alta de las variables (basada en permutaciones) en los bosques aleatorios. Sin embargo, si se omiten esas variables, el OOB y el MSE de la prueba no cambian. Tenga en cuenta que la sustitución de estas variables por sus residuos de una regresión (o incluso una RF) en todas las demás variables no cambia mucho la clasificación de la importancia de las variables. No se me ocurre ninguna explicación sólida para esta aparente contradicción.

Preguntado el 27 de Octubre, 2017 por Kawish

Answer 1

2 Respuestas

Answer 2

1voto

user44816 Puntos 8

No se me ocurre ninguna explicación sólida para esta aparente contradicción.

Esas variables podrían alcanzar la perfección suprema en la separación de las clases.

Sin embargo, es posible que las variables restantes, una vez descartadas las supremas, sigan siendo positivamente excelentes. Por lo tanto, no vería ninguna diferencia porque su conjunto de datos es muy fácil de clasificar.

Respondido el 27 de Octubre, 2017 por user44816 (8 Puntos )

Answer 3

0voto

jws121295 Puntos 36

El bosque aleatorio es robusto. Piense en él como un análogo ML a la mediana. Si se elimina un punto de un conjunto, no afecta mucho a la mediana.

¿Cómo mide su importancia? Si usted tiene muchos miles de filas, y una p del 1%, entonces usted podría tener un problema. Yo miraría el gráfico de importancias y me agruparía en él.

Es posible que la variable "importante" pueda "reconstruirse en conjunto" a partir de otras columnas más ruidosas. Esas columnas aparecerán como menos importantes por sí mismas, pero cuando falte la más importante, entrarán en juego.

Si puede dar un poco de detalle sobre cómo determinó la importancia, eso podría ayudar.

Respondido el 29 de Octubre, 2017 por jws121295 (36 Puntos )

bosque aleatorio: la omisión de variables de gran importancia no modifica el error de la prueba

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

bosque aleatorio: la omisión de variables de gran importancia no modifica el error de la prueba

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: