3 votos

¿Cómo se realiza la división en predictores numéricos en el paquete randomForest en R?

Entiendo que para los árboles individuales se utiliza una medida de mínimos cuadrados para medir la impureza del nodo, dadas las divisiones candidatas de los datos en esa división, y se selecciona la mejor división.

Lo que todavía no entiendo (ya que no he podido encontrar una respuesta en la documentación) es cómo se encuentran las divisiones candidatas en primer lugar, es decir, dado numérico predictores (no nominales ni ordinales), ¿cómo se encuentran los puntos de división para esos predictores numéricos en el paquete randomForest?

Además, me pregunto si los predictores ordinales y las variables dependientes son compatibles con randomForest.

4voto

ESRogs Puntos 1381

Es lo mismo que con las variables ordinales: el algoritmo va del valor mínimo al máximo presente en los atributos como candidato a umbral y selecciona el mejor. Esto se puede acelerar elegantemente hasta la complejidad lineal utilizando la preclasificación.

Por ello, randomForest simplemente convierte los factores ordenados en valores numéricos para los predictores y en datos categóricos en caso de decisión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X