2 votos

¿Cómo afecta la dependencia entre predictores a RandomForest?

Si tengo las variables x1, x2, x3, x4 y quiero predecir x1 utilizando x2, x3, x4 como predictores, ¿cómo afectarían las siguientes situaciones a la precisión y al funcionamiento general del bosque aleatorio?

  • Si x2, x3, x4 no son independientes entre sí
  • Si x2, x3, x4 son independientes pero dependen de x1.

2voto

Pues obtener más información no redundante es siempre mejor que una información redundante equivalente. Dicho esto, el bootstrapping de muestras para cada árbol y subconjunto de variables aleatorias en cada nodo permiten a RF manejar la colinealidad bastante bien.

Si se utilizan árboles empaquetados (mtry/características.probadas = n.características) una variable (por ejemplo, x2) puede ser utilizada en la mayoría de las divisiones, porque estaba ligeramente más (cor)relacionada con x1. De este modo, los pequeños componentes no redundantes de las variables restantes (x3 y x4) pueden ser pasados por alto por el modelo. Reducir mtry obliga al modelo de RF a utilizar todas las variables de forma más equitativa. Para mtry=1 habrá aproximadamente (no es del todo exacto) el mismo número de divisiones por cada variable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X