6 votos

¿Cómo ajustar "depth" y "min_samples_leaf" de Random Forest con datos correlacionados?

Estoy teniendo problemas con la intuición para ejecutar varios RF modelos.

Tengo unas cuantas características (entre 3 y 10) que deberían estar correlacionadas, ya que miden cosas que suelen estar relacionadas.

Quiero afinar el maximum depth of the tree y el min samples at each leaf -ambos se utilizan como criterios de parada.

Dado que los datos están correlacionados, mi mejor intuición es que me gustaría hacer cada árbol de decisión lo más profundo posible, y errar en el lado de unas pocas muestras mínimas en cada hoja (digamos 10, dado que sólo hay alrededor de 1000 puntos de datos). Mi justificación para esto es que hay poca preocupación por el exceso de ajuste ya que los datos están correlacionados.

¿Es correcta esta intuición? Y si no, ¿cuál es una buena manera de optimizar estos dos parámetros?

6voto

Lo estás haciendo mal -- la parte esencial de RF es que básicamente sólo requiere hacer # árboles lo suficientemente grandes para converger y eso es todo (se hace obvio una vez que uno empieza a hacer un ajuste adecuado, es decir, validación cruzada anidada para comprobar cómo de robusta es realmente la selección de parámetros). Si el rendimiento es malo, es mejor corregir las características o buscar otro método.

La poda de árboles funciona bien para los árboles de decisión porque elimina el ruido, pero si se hace dentro de RF se mata el embolsado, que se basa en él para tener miembros no correlacionados durante la votación. Profundidad máxima suele ser sólo un parámetro técnico para evitar desbordamientos de recursión mientras que min muestra en hoja es principalmente para suavizar los votos para la regresión -- el espíritu del método es que

Cada árbol se cultiva en la mayor medida posible.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X