1 votos

Medidas de distancia que tienen en cuenta las variables correlacionadas en los datos

Estoy haciendo clustering sobre datos con 10 dimensiones. Recientemente he tenido que reevaluar mi análisis de cluster original porque he encontrado (por accidente) que algunas de las variables están estrechamente correlacionadas. Supongo que el uso de cualquier tipo de medida de distancia lineal, como la euclidiana, con variables correlacionadas añade esencialmente un peso creciente al componente subyacente por cada variable correlacionada que se utilice. Por lo tanto, esto podría generar sesgos en las medidas de distancia de los que yo no sería necesariamente consciente.

¿Existe alguna medida de distancia o método de agrupación que tenga en cuenta esto? Suponiendo que tenga datos de 1000 dimensiones, sería difícil hacer un examen manual de las correlaciones. Supongo que podría reducir los componentes principales que explican el 90% de la variación de los datos y, a continuación, realizar la agrupación y las medidas de distancia en estos componentes.

He adjuntado un gráfico PCA con las cargas para dar un ejemplo de las variables correlacionadas. Feliz de recibir cualquier respuesta que señale si estoy haciendo el Error XY.

enter image description here

1voto

Eumenedies Puntos 81

Yo empezaría por leer la pregunta, ¿Cómo ayudaría el PCA a un análisis de agrupación de k-means? lo que sugiere hacer el tipo de PCA en su pregunta.

0voto

Amadiere Puntos 5606

Si quiere eliminar las correlaciones y tener el mismo peso en cada componente, esto tiene un nombre: **Análisis de Componentes Principales*.

Claramente, elimina todas las correlaciones.

Pero no resuelve del todo el problema de la ponderación. Pondrá demasiado peso en los componentes menores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X