4 votos

¿Relación entre la importancia de Gini y el rendimiento de predicción (por ejemplo, AUC)?

Quiero usar la disminución en el coeficiente de Gini de la impureza para clasificar las características de mi bosque aleatorio clasificador. Entiendo que la disminución en el coeficiente de Gini de la impureza en un nodo se calcula como:

$$ \Delta i(n) = i(n) - p_li(n_l) - p_ri(n_r) $$

La disminución global de Gini de la impureza se suman a lo largo de todos los nodos y todos los árboles de un nodo dado ref. No entiendo muy bien si existe un vínculo entre la disminución en el coeficiente de Gini de la impureza y la predicción de rendimiento? Es decir, de Gini impureza dice que características son las más importantes en relación con los demás. Pero puedo deducir cuánto a las características individuales afectará el rendimiento de la predicción, dado el coeficiente de Gini de la impureza? He leído los siguientes puestos de trabajo:

Gini y disminuir el índice de Gini de la impureza de los nodos hijos

¿Cuál es la relación entre el coeficiente de GINI de puntuación y el log-likelihood ratio

2voto

sd2k9 Puntos 21

No estoy seguro de que hay una gran respuesta a esta pregunta. Pero tal vez

Como yo sé que hay cuatro medidas de importancia variable en el original Breiman de papel, con sólo dos en la randomForest paquete. Pero la permutación de importancia variable parece ser mucho más popular, probablemente porque es mucho más fácil entender cómo esto puede producir intuitiva medidas de importancia variable y cómo estas medidas de importancia variable se refieren a la capacidad predictiva del modelo. Mi entendimiento es que valSelRF, Boruta y condicionales de la variable de importancia en party todo el uso de la permutación de importancia variable.

Variable de importancia son sugerentes, pero es difícil hacer inferencias a partir de la salida. Esa podría ser la razón hay tantas formas de calcular la variable de importancia. el relaimpo paquete de seis medidas. Tanto el Boruta y relaimpo paquete de viñetas en las que vale la pena leer. Discutir el tema en profundidad. El relaimpo viñeta sobre todo hace hincapié en las limitaciones de los métodos y de los resultados contradictorios que usted puede obtener. Los métodos pueden ser eficientes en la búsqueda de todas-de las características más relevantes, pero a menudo producen resultados contradictorios en la clasificación de la característica. (Usted puede encontrar los valores también cambian cuando cambia la función de costo. )

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X