68 votos

¿Son necesarias la normalización de la media y el escalado de características para el clustering de k-means?

¿Cuáles son los mejores pasos de preprocesamiento (recomendados) antes de realizar k-means?

0 votos

Puede que esto le resulte útil: stats.stackexchange.com/q/19216/6637

89voto

Uri Puntos 111

Si sus variables son de unidades incomparables (por ejemplo, la altura en cm y el peso en kg), debe estandarizar las variables, por supuesto. Incluso si las variables son de las mismas unidades pero muestran varianzas bastante diferentes, sigue siendo una buena idea estandarizar antes de K-means. Verá, el clustering de K-means es "isotrópico" en todas las direcciones del espacio y por tanto tiende a producir clusters más o menos redondos (en lugar de alargados). En esta situación, dejar las varianzas desiguales equivale a dar más peso a las variables con menor varianza, por lo que los clusters tenderán a separarse a lo largo de las variables con mayor varianza.

enter image description here

Otra cosa que vale la pena recordar es que los resultados del clustering de K-means son potencialmente sensibles al orden de los objetos en el conjunto de datos $^1$ . Una práctica justificada sería ejecutar el análisis varias veces, aleatorizando el orden de los objetos; luego promediar los centros de los clusters correpondientes/mismos entre esas ejecuciones $^2$ e introducir los centros como iniciales para una última ejecución del análisis.

Aquí es un razonamiento general sobre la cuestión de la estandarización de los rasgos en el análisis de conglomerados u otros análisis multivariantes.


$^1$ En concreto, (1) algunos métodos de inicialización de centros son sensibles al orden de los casos; (2) incluso cuando el método de inicialización no es sensible, los resultados pueden depender a veces del orden en que se introducen los centros iniciales en el programa (en particular, cuando hay distancias empatadas e iguales dentro de los datos); (3) los llamados medios de ejecución versión del algoritmo k-means es naturalmente sensible al orden de los casos (en esta versión -que no se utiliza a menudo, salvo quizás en la agrupación en línea- el recálculo de los centroides tiene lugar después de que cada caso individual sea reasignado a otro clúster).

$^2$ En la práctica, la correspondencia entre los clusters de diferentes series suele verse inmediatamente por su relativa cercanía. Cuando no se ve fácilmente, la correspondencia puede establecerse mediante una agrupación jerárquica realizada entre los centros o mediante un algoritmo de correspondencia como el húngaro. Pero, para remarcar, si la correspondencia es tan vaga que casi desaparece, entonces los datos o bien no tenían una estructura de clústeres detectable por K-means, o bien K está muy equivocado.

3 votos

Lo de aleatorizar, volver a correr, hacer la media y la carrera final es un muy buen consejo. Gracias

1 votos

¿Cómo podría ser k-means sensible a la ordenación?

1 votos

@EstudianteT, he añadido una nota a pie de página para eso. Gracias.

4voto

Konrad Puntos 2400

Supongo que depende de sus datos. Si quiere que las tendencias de sus datos se agrupen independientemente de la magnitud, debe centrarlos. Por ejemplo, si tiene un perfil de expresión de genes y quiere ver las tendencias de la expresión de los genes, sin el centrado de la media, los genes de baja expresión se agruparán y se alejarán de los genes de alta expresión, independientemente de las tendencias. El centrado hace que los genes (tanto de alta como de baja expresión) con patrones de expresión similares se agrupen.

0 votos

En realidad estoy comparando diferentes características que tienen su propia escala. Por ejemplo, estoy comparando el contenido de CG, que tiene un rango de aproximadamente 0,3 a 0,5, que puede parecer pequeño, pero la diferencia es bastante importante; algunas otras características tienen rangos más amplios, y otras se mueven en escalas muy pequeñas.

0 votos

Entonces, ¿estás agrupando diferentes factores? Tal vez podría utilizar alguna ponderación o transformación de los valores.

0 votos

No, estoy comparando todas las variables continuas

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X