4 votos

Colinealidad y escalado al utilizar k-means

Estoy intentando comprender mejor el clustering de kmeans y todavía no tengo claro lo de la colinealidad y el escalado de los datos. Para explorar la colinealidad, hice un gráfico de las cinco variables que estoy considerando que se muestra en la figura siguiente, junto con un cálculo de correlación. colinearity

Empecé con un número mayor de parámetros y excluí los que tenían una correlación superior a 0,6 (una suposición que hice). Los cinco que decidí incluir se muestran en este diagrama.

A continuación, he escalado la fecha utilizando la función R función scale(x) antes de aplicar el kmeans() función. Sin embargo, no estoy seguro de si center = TRUE y scale = TRUE también debería incluirse, ya que no entiendo las diferencias que marcan estos argumentos. (El scale() la descripción se da como scale(x, center = TRUE, scale = TRUE) ).

¿Es el proceso que describo una forma adecuada de identificar las agrupaciones?

2voto

Assad Ebrahim Puntos 939

Como CHL ya ha explicado el uso del centro y la escala para obtener variables estandarizadas, me ocuparé de la colinealidad:

Hay una buena razón para reducir las variables colineales cuando se agrupan.

La maldición de la dimensionalidad

Cuantas más dimensiones utilice, más probabilidades tendrá de ser víctima de La "maldición de la dimensionalidad" de Bellman . En resumen, cuanto mayor sea el número de dimensiones, mayor será el volumen total y mayor será la dispersión de sus datos en él. (Véase el enlace para más detalles).

Reducción de la dimensión --- manualmente mediante la inspección de la colinealidad por pares...

Usted menciona que ya ha reducido las variables de un número mayor a 5 utilizando medidas de colinealidad por pares.

Aunque esto funcionará, es bastante tedioso, ya que en general tendrá $n\choose 2$ número de pares a comprobar. (Así, por ejemplo, con 10 variables, tendría ${10 \choose 2} = 45$ diferentes pares para examinar - ¡demasiados para hacerlo manualmente en mi opinión!

Reducción de la dimensión --- automáticamente mediante el análisis de componentes principales (PCA)...

Una forma de manejar esto automáticamente es utilizar el Algoritmo PCA (análisis de componentes principales) . El concepto es más o menos lo que estás haciendo manualmente: clasificar las variables por la cantidad de información única que aporta cada una de ellas.

Así que proporciona a PCA su $n$ -El PCA ordenará las variables en función de la mayor varianza que cada una de ellas explique en los datos, eliminando básicamente las variables no colineales.

Dependiendo de si quiere clústeres bidimensionales o tridimensionales, utilizaría las 2 o 3 primeras variables del PCA.

Componentes principales en R

El algoritmo PCA está disponible (incorporado) en R.

En realidad hay varias funciones en R que hacen componentes principales.

He tenido éxito con prcomp() .

Referencia estándar disponible gratuitamente en línea

Una de las mejores referencias disponibles es el clásico

Elementos de aprendizaje estadístico por Trevor Hastie, Robert Tibshirani y Jermoe Friedman

Los autores han tenido la gentileza de hacer el libro completo disponible (gratuitamente) como descarga en PDF de su página web de Stanford.

Hay excelentes capítulos sobre clustering, componentes principales y una gran sección sobre la maldición de la dimensionalidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X