Estoy haciendo clustering sobre datos con 10 dimensiones. Recientemente he tenido que reevaluar mi análisis de cluster original porque he encontrado (por accidente) que algunas de las variables están estrechamente correlacionadas. Supongo que el uso de cualquier tipo de medida de distancia lineal, como la euclidiana, con variables correlacionadas añade esencialmente un peso creciente al componente subyacente por cada variable correlacionada que se utilice. Por lo tanto, esto podría generar sesgos en las medidas de distancia de los que yo no sería necesariamente consciente.
¿Existe alguna medida de distancia o método de agrupación que tenga en cuenta esto? Suponiendo que tenga datos de 1000 dimensiones, sería difícil hacer un examen manual de las correlaciones. Supongo que podría reducir los componentes principales que explican el 90% de la variación de los datos y, a continuación, realizar la agrupación y las medidas de distancia en estos componentes.
He adjuntado un gráfico PCA con las cargas para dar un ejemplo de las variables correlacionadas. Feliz de recibir cualquier respuesta que señale si estoy haciendo el Error XY.