Mi pregunta se refiere a la clasificación binaria, por ejemplo, separar los buenos clientes de los malos, pero no a la regresión ni a la clasificación no binaria. En este contexto, un bosque aleatorio es un conjunto de árboles de clasificación. Para cada observación, cada árbol vota un "sí" o un "no", y el voto medio de todos los árboles es la probabilidad final del bosque.
Mi pregunta se refiere a la modificación del comportamiento de los árboles subyacentes: Cómo podemos modificar la función randomForest (del paquete randomForest de R) para que cada árbol vote un decimal en lugar de un sí/no binario. Para entender mejor a qué me refiero con decimal, pensemos en cómo funcionan los árboles de decisión.
Un árbol de decisión completamente desarrollado tiene 1 instancia buena o 1 mala en sus nodos terminales. Supongamos que limito a 100 el tamaño de los nodos terminales. Entonces los nodos terminales se verán como:
Nodo1 = 80 malos, 20 buenos
Nodo2 = 51 malo, 49 bueno
Nodo3 = 10 malo, 90 bueno
Fíjate, aunque el Nodo1 y el Nodo2 votan "malo", su "fuerza de maldad" es muy diferente. Eso es lo que pretendo. En lugar de que produzcan 1 o 0 (que es el comportamiento por defecto), ¿se puede modificar el paquete R para que voten 80/100, 51/100, 10/100, etc.?
0 votos
Sólo quería incluir el siguiente enlace a un debate relacionado: stackoverflow.com/questions/22409019/
0 votos
¿Quieres decir que quieres el probabilidades reales previstas no sólo la clase prevista más probable.
0 votos
Sí @smci exactamente.
0 votos
Bosques de transformación ( Hothorn & Zeileis, 2021 ) deberían darle exactamente lo que necesita, como clasificaciones probabilísticas.