1 votos

Diseño del clasificador Random Forest

Cuando utilizamos el bosque aleatorio para la clasificación, éste construye múltiples árboles y finalmente promedia la salida, en el caso de la clasificación toma un voto mayoritario entre todos los árboles y asigna una clase. En el caso de la predicción con el bosque aleatorio, las características vuelven a pasar por cada árbol y se toma un voto mayoritario en los nodos terminales.

Si pedimos probabilidades de clase, estas probabilidades se calculan contando la proporción de cada una de las clases para todos los árboles, por ejemplo, para la clasificación binaria, $P(1|X)=\frac{\#1's}{\#1's+\#0's}$ .

Mi pregunta:

¿Es conveniente calcular estas probabilidades contando los votos y diseñando después un clasificador, es decir, calculando el AUC, el error de clasificación errónea en función del umbral de probabilidad, la predicción positiva la predicción negativa...?

La lógica parece circular, ya que primero clasificamos por mayoría de votos, luego contamos para obtener probabilidades y después aplicamos un umbral de probabilidad.

¿Podemos hacerlo?

3voto

eldering Puntos 3814

Tienes razón, pero porque generalmente esto no es lo mejor:

en el caso de la clasificación, toma un voto mayoritario entre todos los árboles y asigna una clase.

Esa es una concepción común sobre los Bosques Aleatorios, pero no es la cantidad aplicaciones estándar trabajo. En su lugar, los árboles "votan" de forma probabilística: los árboles individuales asignan probabilidades para cada registro que son la relación entre el número de clases positivas y el total de ejemplos de entrenamiento en el nodo terminal que contiene el punto de datos. A continuación, estas probabilidades de los árboles individuales se promedian entre todos los árboles para obtener una probabilidad de predicción global.

La asignación de la pertenencia a una clase no es necesaria en ninguna parte, y es externa a los algoritmos de aprendizaje automático del bosque aleatorio (y de casi todos los demás).

2voto

user777 Puntos 10934

No veo cómo esto es circular. Las predicciones de la RF son la fracción de votos para una clase particular. Esas predicciones pueden clasificarse, y el análisis ROC y el AUC sólo se preocupan por los rangos de negativos y positivos.

Por el contrario, si sólo se hacen predicciones por mayoría de votos, se están haciendo implícitamente una serie de suposiciones que no son necesariamente apropiadas para el problema que se intenta resolver. Por ejemplo, se puede tener un AUC = 1 si todos los positivos se puntúan con 0,49 y todos los negativos con 0,48. Por otro, si se paga un coste muy grande por los FP, entonces se debe seleccionar un punto de funcionamiento a un FPR bajo.

Esencialmente cada modelo de aprendizaje automático (regresión logística, etc.) no son clasificadores pero que arrojan algún tipo de puntuación que, con una regla de decisión, puede tomar decisiones binarias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X