2 votos

En la construcción de árboles de decisión, ¿puede un buen divisor tener poca ganancia de información?

Tengo un conjunto de datos con una variable de partición candidata que es una opción natural desde la perspectiva empresarial. Tiene dos valores, y las distribuciones del objetivo cuando se condicionan a los dos valores de esta variable son bastante distintas (visualmente). Sin embargo, la ganancia de información de esta variable es muy pequeña (casi un 80% menor que la de otras variables cuyas distribuciones condicionales son mucho menos diferenciadas). ¿Es posible que una variable con una ganancia de información baja sea, sin embargo, un buen divisor en algún otro sentido?

1voto

James Puntos 1294

Puede utilizar la Ganancia de Información (GI) para ver si las características que son la elección natural para predecir alguna clase objetivo son realmente mejores que las otras características que puede utilizar. En su dominio de aplicación, puede ser cierto que existan mejores variables predictivas que las suyas (digamos $V$ ).

Sin embargo:

Hay casos en los que IG se infla sólo por azar. Más concretamente, cuando el conjunto de entrenamiento es pequeño. Véase http://en.wikipedia.org/wiki/Adjusted_mutual_information

Si las demás características son continuas, el proceso de inducción del árbol de decisión pasa a la discretización binaria. Debido a las múltiples comparaciones, las posibilidades de encontrar un valor alto para IG no son despreciables. Véase http://en.wikipedia.org/wiki/Multiple_comparisons_problem

Al igual que en el punto anterior, cuando hay muchas características que se pueden utilizar para la predicción, la probabilidad de encontrar un grupo de características muy predictivas debido al sobreajuste es alta. Véase este artículo sobre conjuntos de árboles: http://www.pnas.org/content/99/10/6562.abstract

Tenga en cuenta que existen otros criterios de división, por ejemplo la Ganancia de Gini (GG) utilizada en CART ( http://en.wikipedia.org/wiki/Decision_tree_learning ). Sin embargo, si se utiliza que usted podría tener los mismos resultados que obtuvo con IG porque son diferentes parametrización de la misma cosa (Rényi Entropía http://en.wikipedia.org/wiki/R%C3%A9nyi_entropy ). Compruebe si las pruebas estadísticas (por ejemplo, Chi-cuadrado) conducen a resultados diferentes. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.92.9930

Si le interesa la calidad de su variable predictiva $V$ puede utilizar la importancia de las características en Random Forest. Esto puede evaluar su calidad de una manera más robusta. Véase http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm . Versión R http://cran.r-project.org/web/packages/randomForest/index.html

Además, debe haber una razón por la que considere que $V$ tan importante. Cosas que no se incluyen en el cómputo del IG. Es $V$ ¿fácil de medir? ¿Barato de medir?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X