1 votos

Nodos terminales del clasificador Random Forest como distribución de probabilidad

He estado profundizando en los bosques aleatorios y tenía una pregunta sobre los nodos terminales.

Sé que, en general, cuando se llega al nodo terminal, u hoja, de un bosque aleatorio, el valor asignado para esa hoja es la moda de las respuestas que acaban allí. Por ejemplo, si tiene 5 ejemplos de entrenamiento que terminan en un terminal (basado en los hiperparámetros del modelo), de tal manera que sus etiquetas son (A,A,A,B,B), establecería la predicción para esa hoja como A.

¿Hay alguna razón para que no sea simplemente una distribución de probabilidad? En el ejemplo anterior, ¿podría devolver A el 60% de las veces, y B el 40% de las veces?

Mi intuición me dice que esto aumentaría la varianza del modelo, pero sólo busco algo de rigor matemático detrás de esta intuición (o, si esta intuición es errónea, una explicación de lo que no estoy entendiendo).

2voto

icelava Puntos 548

Desgraciadamente, no es muy habitual que las RF emitan predicciones probabilísticas, pero muchas implementaciones lo permiten, por ejemplo, randomForest::predict.randomForest(..., type="prob") en R. De hecho, diría que esto suele ser mucho más útil que la votación por mayoría simple que se utiliza para convertir la población de nodos terminales en una clasificación dura, véase enlaces en esta respuesta mía .

Esto no aumenta la varianza del modelo, porque la pregunta en sí combina dos temas, la clasificación probabilística frente a la clasificación dura. Es una cuestión de utilizar la clasificación probabilística en lugar de la dura.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X