Estoy teniendo problemas con la intuición para ejecutar varios RF modelos.
Tengo unas cuantas características (entre 3 y 10) que deberían estar correlacionadas, ya que miden cosas que suelen estar relacionadas.
Quiero afinar el maximum depth of the tree
y el min samples at each leaf
-ambos se utilizan como criterios de parada.
Dado que los datos están correlacionados, mi mejor intuición es que me gustaría hacer cada árbol de decisión lo más profundo posible, y errar en el lado de unas pocas muestras mínimas en cada hoja (digamos 10, dado que sólo hay alrededor de 1000 puntos de datos). Mi justificación para esto es que hay poca preocupación por el exceso de ajuste ya que los datos están correlacionados.
¿Es correcta esta intuición? Y si no, ¿cuál es una buena manera de optimizar estos dos parámetros?