¿Cuál es la mejor función de coste para un árbol de bosque aleatorio? ¿índice de Gini o entropía?
Estoy intentando implementar bosques aleatorios en Clojure.
¿Cuál es la mejor función de coste para un árbol de bosque aleatorio? ¿índice de Gini o entropía?
Estoy intentando implementar bosques aleatorios en Clojure.
Como encontré en Introduction to Data Mining de Tan et. al:
Los estudios han demostrado que la elección de la medida de impureza tiene poco efecto en el rendimiento de los algoritmos de inducción de árboles de decisión. Esto se debe a que muchas medidas de impureza son bastante coherentes entre sí [...]. De hecho, la estrategia utilizada para podar el árbol tiene un mayor impacto en el árbol final que la elección de la medida de impureza.
Por lo tanto, puede optar por utilizar el índice de Gini como CART o la Entropía como C4.5.
Yo usaría la Entropía, más concretamente el Ratio de Ganancia de C4.5 porque se puede seguir fácilmente el libro bien escrito de Quinlan: C4.5 Programs for Machine Learning.
Pequeña observación -- la entropía usa logs, lo que puede ser un problema de tiempo computacional.
Esta observación se refiere a los árboles de decisión puros, no a los bosques aleatorios. Normalmente no se poda un árbol en un bosque aleatorio porque no se intenta construir el mejor árbol. Así que parece engañoso hablar de qué es más importante: la poda o la medida de impurezas. El objetivo es encontrar el mejor árbol para utilizar con el bosque aleatorio.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
1 votos
Gini y Entropía no son funciones de coste, sino medidas de impurezas en cada nodo para dividir las ramas en Random Forest. MSE (error cuadrático medio) es la función de coste más utilizada para la regresión. La función de coste Cross Entropy se utiliza para la clasificación.
1 votos
<rant>El "índice de Gini" aquí es otro ejemplo de aprendizaje automático que confunde un término que ya existe significando otra cosa para un concepto que ya tiene varios nombres existentes. El otro uso de "índice de Gini" como medida de desigualdad para los ingresos o la riqueza (relacionado con la curva de Lorenz) es más conocido en general, mientras que esta medida de ML es también esencialmente lo que se conoce en diferentes campos como el índice de Herfindahl-Hirschman, el índice de Simpson, el índice de Blau, el índice de Hunter-Gaston, la relación de participación inversa, el poder discriminatorio o el número efectivo</rant>.