Clustering fórmula de inercia en scikit aprender

Question

Clustering fórmula de inercia en scikit aprender

Preguntado el 2 de Diciembre, 2013: Cuando se hizo la pregunta
1699 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Me gustaría código de un kmeans la agrupación en clústeres en python usando pandas y scikit aprender. Con el fin de seleccionar la mejor k, me gustaría código de la Brecha Estadística de Tibshirani y al 2001 (pdf).

Me gustaría saber si puedo usar inertia_ resultado de scikit y adaptar la brecha estadística fórmula sin tener que recodificar todas las distancias de cálculo.

¿Alguien sabe la inercia de la fórmula utilizada en scikit / sabe una manera fácil para recodificar la brecha de la estadística de uso de alto nivel de las funciones de la distancia?

Preguntado el 2 de Diciembre, 2013 por SystematicFrank

Answer 1

1 Respuestas

Answer 2

7voto

SystematicFrank Puntos 421

Creo que he encontrado mi respuesta para kmeans la agrupación:

Mirando el código fuente de git, me encontré con que para scikit aprender, la inercia se calcula como la suma de los cuadrados de la distancia de cada punto al centroide más cercano, es decir, de su clúster. Por lo $I = \sum_{i}(d(i,cr))$ donde $cr$ es el centroide del cluster y $d$ es el cuadrado de la distancia.

Ahora la fórmula de la brecha de la estadística implica $W_k = \sum_{i=1}^{k}\frac 1 {(2*n_r) }D_r$ donde $D_r$ es la suma de los cuadrados de las distancias entre todos los puntos en el clúster $r$ .

Mediante la introducción de $+c$ , $-c$ en el cuadrado de la fórmula de la distancia ( $c$ siendo el centroide del cluster $r$ coordenadas), tengo un término que corresponde a la Inercia (como en scikit) + un término que desaparece si cada una de las $c$ es el centro de gravedad de cada grupo (que se supone que debe ser en kmeans). Así que supongo que $W_k$ es en el hecho de scikit Inercia.

Todavía tengo dos preguntas:

¿Crees que mi cálculo es correcto? (Por ejemplo, no sé si se sostiene por la agrupación jerárquica.)
Si estoy en lo correcto por encima, me ha codificado la brecha estadística (como la diferencia de registro de inercias entre la estimación y la agrupación) y se realiza mal, especialmente en el conjunto de datos iris, ¿alguien ha probado?

Respondido el 3 de Diciembre, 2013 por SystematicFrank (421 Puntos )

Clustering fórmula de inercia en scikit aprender

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Clustering fórmula de inercia en scikit aprender

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: