He aquí un fragmento de mi respuesta aquí . La forma más fácil (al menos para mí) de entender
$1-\sum f_i^2$ = $\sum_{i \neq k} f_if_k$
es representando visualmente cada uno de los elementos de esta ecuación. Supondremos que hay 4 etiquetas a continuación; sin embargo, esto se escalará a n valores.
El valor 1 es simplemente la suma de todas las probabilidades posibles. Por definición, este valor debe ser 1.
El valor $\sum f_i^2$ es la suma de probabilidades de seleccionar un valor y su etiqueta de la distribución de valores.
Restando a 1 la probabilidad de que coincidan etiquetas con valores se obtiene la probabilidad de que no coincidan etiquetas y valores. Esto es lo que proporciona la impureza de gini: la probabilidad de que no coincidan las etiquetas con los valores.