8 votos

Sondeo vs promedio en el Bosque Aleatorio modelos

¿Por qué es que para el Bosque Aleatorio tomamos el promedio de la votación de cada clasificador en el conjunto, en lugar de la probabilidad promedio de cada clasificador en el conjunto? Existe la teoría detrás del por qué de votación es la preferida, o es simplemente que parece que funciona mejor empíricamente? El uso de las probabilidades, parece que eliminaría la necesidad de optimización de la frecuencia de corte.

2voto

Eric Czech Puntos 379

Esto se ve como el tipo de respuesta que usted está buscando: http://people.dsv.su.se/~henke/papers/bostrom07c.pdf

El autor analiza utilizando el promedio de votos vs promedio de las probabilidades de los miembros del conjunto, así como algunos otros enfoques a la aproximación de las impurezas en los nodos hoja. Por ejemplo, incluso si usted no hace crecer los árboles a una profundidad máxima (como se menciona en los comentarios) la "Aproximación de Laplace" podría ser utilizado para obtener una probabilidad distinta de cero para cada clase mediante la adición de uno para el recuento de observaciones de cada clase en las hojas.

Empíricamente hablando, el autor concluye diciendo que el uso de los promedios de la relación de clase frecuencias (en 34 conjuntos de datos) es mejor que utilizando el promedio de votos (es decir, de sondeo), aunque no es mejor que el uso de algunos "ajustado" probabilidad media como la Aproximación de Laplace.

La diferencia se ve bastante ligera para mí, pero echa un vistazo a la "Exactitud y el AUC de la tabla" en la página 5. Que podrían convencer a usted de una manera o de otra.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X