Creo que he encontrado mi respuesta para kmeans la agrupación:
Mirando el código fuente de git, me encontré con que para scikit aprender, la inercia se calcula como la suma de los cuadrados de la distancia de cada punto al centroide más cercano, es decir, de su clúster. Por lo I=∑i(d(i,cr))I=∑i(d(i,cr)) donde crcr es el centroide del cluster y dd es el cuadrado de la distancia.
Ahora la fórmula de la brecha de la estadística implica
Wk=k∑i=11(2∗nr)DrWk=k∑i=11(2∗nr)Dr
donde DrDr es la suma de los cuadrados de las distancias entre todos los puntos en el clúster rr.
Mediante la introducción de +c+c, −c−c en el cuadrado de la fórmula de la distancia (cc siendo el centroide del cluster rr coordenadas), tengo un término que corresponde a la Inercia (como en scikit) + un término que desaparece si cada una de las cc es el centro de gravedad de cada grupo (que se supone que debe ser en kmeans). Así que supongo que WkWk es en el hecho de scikit Inercia.
Todavía tengo dos preguntas:
- ¿Crees que mi cálculo es correcto? (Por ejemplo, no sé si se sostiene por la agrupación jerárquica.)
- Si estoy en lo correcto por encima, me ha codificado la brecha estadística (como la diferencia de registro de inercias entre la estimación y la agrupación) y se realiza mal, especialmente en el conjunto de datos iris, ¿alguien ha probado?