He mirado por ahí y he visto que GINI se utiliza sobre todo en el contexto de los clasificadores binarios. ¿Tiene GINI sentido sólo para los clasificadores binarios? ¿Podemos ampliar la definición a los clasificadores multiclase?
Respuesta
¿Demasiados anuncios?La impureza de Gini puede utilizarse definitivamente para cuantificar la varianza en un entorno multiclase, no sólo en el caso binario. La impureza de Gini se define como
$$ G(p) = \sum_{i=1}^{J}{p_i} \sum_{k \neq i}^{J}{p_k} = 1-\sum_{i=1}^{J}{(p_i)^{2}} $$
para el escenario con $J$ clases, cada una con una probabilidad $p_i...p_J$ , donde $|J|$ puede ser $>2$ .
También puede encontrar más información aquí: https://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Posiblemente le haya costado encontrar ayuda debido a la ambigüedad con el "Coeficiente de Gini" utilizado en economía ( https://en.wikipedia.org/wiki/Gini_coefficient ).