En realidad estoy escribiendo una implementación de Bosques Aleatorios, pero creo que la pregunta es específica de los árboles de decisión (independiente de los RF).
El contexto es que estoy creando un nodo en un árbol de decisión y tanto la predicción como las variables objetivo son continuas. El nodo tiene un umbral de división para dividir los datos en dos conjuntos, y creo una nueva predicción para cada subconjunto basada en el valor medio del objetivo en cada conjunto. ¿Es éste el enfoque correcto?
La razón por la que pregunto es que al predecir binario Creo que el enfoque típico (¿correcto?) es dividir los datos en subconjuntos de 0 y 1 sin tomar un promedio sobre las filas de datos en cada subconjunto. Las divisiones posteriores se dividirán en subconjuntos de grano más fino y al tomar un promedio en cada división, las divisiones posteriores (más abajo en el árbol de decisión) operan en lo que ahora son variables continuas en lugar de binarias (porque estamos operando en los valores de error residual en lugar de los objetivos originales).
Pregunta al margen: ¿Es significativa la distinción entre los dos enfoques (binario frente a continuo) o en realidad darán resultados idénticos para un árbol de decisión completo?