16 votos

Random Forest mtry Pregunta

Sólo quiero entender cómo funciona mtry en los bosques aleatorios. Por favor, corrígeme si me equivoco.

Cuando especifica mtry (digamos 10), toma 10 variables aleatorias de su conjunto de datos y las examina para un árbol. Entonces, ¿el siguiente árbol tomaría 10 variables aleatorias más, las examinaría, así sucesivamente hasta que recorra los ntrees que especifique y luego devuelva las estimaciones medias de las variables mejores/más importantes?

32voto

David J. Sokol Puntos 1730

No, esto no funciona así.

Considere la posibilidad de añadir un único árbol a un modelo Random Forest (RF).

El algoritmo de partición recursiva estándar empezaría con todos los datos y haría una búsqueda exhaustiva de todas las variables y posibles puntos de partición para encontrar el que mejor "explicara" todos los datos, es decir, el que más redujera la impureza del nodo. Los datos se dividen según el mejor punto de división y el proceso se repite en las hojas izquierda y derecha sucesivamente, de forma recursiva, hasta que se cumplan algunas reglas de parada. La clave aquí es que cada vez que el algoritmo de partición recursiva busca una partición todos las variables se incluyen en la búsqueda .

En lo que difieren los modelos RF es en que, al formar cada división en un árbol, el algoritmo selecciona aleatoriamente mtry variables del conjunto de predictores disponibles. Por lo tanto, al formar cada división un conjunto aleatorio diferente de variables dentro del cual se elige el mejor punto de división.

Por lo tanto, para árboles grandes, que es lo que utilizan las RF, es al menos concebible que todas las variables se utilicen en algún momento al buscar puntos de división mientras crece el árbol.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X