Tengo un conjunto de datos con una variable de partición candidata que es una opción natural desde la perspectiva empresarial. Tiene dos valores, y las distribuciones del objetivo cuando se condicionan a los dos valores de esta variable son bastante distintas (visualmente). Sin embargo, la ganancia de información de esta variable es muy pequeña (casi un 80% menor que la de otras variables cuyas distribuciones condicionales son mucho menos diferenciadas). ¿Es posible que una variable con una ganancia de información baja sea, sin embargo, un buen divisor en algún otro sentido?
Respuesta
¿Demasiados anuncios?Puede utilizar la Ganancia de Información (GI) para ver si las características que son la elección natural para predecir alguna clase objetivo son realmente mejores que las otras características que puede utilizar. En su dominio de aplicación, puede ser cierto que existan mejores variables predictivas que las suyas (digamos $V$ ).
Sin embargo:
Hay casos en los que IG se infla sólo por azar. Más concretamente, cuando el conjunto de entrenamiento es pequeño. Véase http://en.wikipedia.org/wiki/Adjusted_mutual_information
Si las demás características son continuas, el proceso de inducción del árbol de decisión pasa a la discretización binaria. Debido a las múltiples comparaciones, las posibilidades de encontrar un valor alto para IG no son despreciables. Véase http://en.wikipedia.org/wiki/Multiple_comparisons_problem
Al igual que en el punto anterior, cuando hay muchas características que se pueden utilizar para la predicción, la probabilidad de encontrar un grupo de características muy predictivas debido al sobreajuste es alta. Véase este artículo sobre conjuntos de árboles: http://www.pnas.org/content/99/10/6562.abstract
Tenga en cuenta que existen otros criterios de división, por ejemplo la Ganancia de Gini (GG) utilizada en CART ( http://en.wikipedia.org/wiki/Decision_tree_learning ). Sin embargo, si se utiliza que usted podría tener los mismos resultados que obtuvo con IG porque son diferentes parametrización de la misma cosa (Rényi Entropía http://en.wikipedia.org/wiki/R%C3%A9nyi_entropy ). Compruebe si las pruebas estadísticas (por ejemplo, Chi-cuadrado) conducen a resultados diferentes. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.92.9930
Si le interesa la calidad de su variable predictiva $V$ puede utilizar la importancia de las características en Random Forest. Esto puede evaluar su calidad de una manera más robusta. Véase http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm . Versión R http://cran.r-project.org/web/packages/randomForest/index.html
Además, debe haber una razón por la que considere que $V$ tan importante. Cosas que no se incluyen en el cómputo del IG. Es $V$ ¿fácil de medir? ¿Barato de medir?