Medidas de distancia que tienen en cuenta las variables correlacionadas en los datos

Question

Medidas de distancia que tienen en cuenta las variables correlacionadas en los datos

Preguntado el 4 de Abril, 2017: Cuando se hizo la pregunta
414 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy haciendo clustering sobre datos con 10 dimensiones. Recientemente he tenido que reevaluar mi análisis de cluster original porque he encontrado (por accidente) que algunas de las variables están estrechamente correlacionadas. Supongo que el uso de cualquier tipo de medida de distancia lineal, como la euclidiana, con variables correlacionadas añade esencialmente un peso creciente al componente subyacente por cada variable correlacionada que se utilice. Por lo tanto, esto podría generar sesgos en las medidas de distancia de los que yo no sería necesariamente consciente.

¿Existe alguna medida de distancia o método de agrupación que tenga en cuenta esto? Suponiendo que tenga datos de 1000 dimensiones, sería difícil hacer un examen manual de las correlaciones. Supongo que podría reducir los componentes principales que explican el 90% de la variación de los datos y, a continuación, realizar la agrupación y las medidas de distancia en estos componentes.

He adjuntado un gráfico PCA con las cargas para dar un ejemplo de las variables correlacionadas. Feliz de recibir cualquier respuesta que señale si estoy haciendo el Error XY.

Preguntado el 4 de Abril, 2017 por DIA Tom

Answer 1

2 Respuestas

Answer 2

1voto

Eumenedies Puntos 81

Yo empezaría por leer la pregunta, ¿Cómo ayudaría el PCA a un análisis de agrupación de k-means? lo que sugiere hacer el tipo de PCA en su pregunta.

Respondido el 4 de Abril, 2017 por Eumenedies (81 Puntos )

Answer 3

0voto

Amadiere Puntos 5606

Si quiere eliminar las correlaciones y tener el mismo peso en cada componente, esto tiene un nombre: **Análisis de Componentes Principales*.

Claramente, elimina todas las correlaciones.

Pero no resuelve del todo el problema de la ponderación. Pondrá demasiado peso en los componentes menores.

Respondido el 5 de Abril, 2017 por Amadiere (5606 Puntos )

Medidas de distancia que tienen en cuenta las variables correlacionadas en los datos

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Medidas de distancia que tienen en cuenta las variables correlacionadas en los datos

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: