He estado profundizando en los bosques aleatorios y tenía una pregunta sobre los nodos terminales.
Sé que, en general, cuando se llega al nodo terminal, u hoja, de un bosque aleatorio, el valor asignado para esa hoja es la moda de las respuestas que acaban allí. Por ejemplo, si tiene 5 ejemplos de entrenamiento que terminan en un terminal (basado en los hiperparámetros del modelo), de tal manera que sus etiquetas son (A,A,A,B,B), establecería la predicción para esa hoja como A.
¿Hay alguna razón para que no sea simplemente una distribución de probabilidad? En el ejemplo anterior, ¿podría devolver A el 60% de las veces, y B el 40% de las veces?
Mi intuición me dice que esto aumentaría la varianza del modelo, pero sólo busco algo de rigor matemático detrás de esta intuición (o, si esta intuición es errónea, una explicación de lo que no estoy entendiendo).