39 votos

¿Cómo ayudaría el PCA a un análisis de agrupación de k-means?

Antecedentes : Quiero clasificar las zonas residenciales de una ciudad en grupos en función de sus características socioeconómicas, incluyendo la densidad de unidades de vivienda, la densidad de población, la superficie de espacios verdes, el precio de la vivienda, el número de escuelas / centros de salud / guarderías, etc. Quiero saber en cuántos grupos diferentes se pueden dividir las zonas residenciales y cuáles son sus características únicas. Esta información podría facilitar la planificación de la ciudad.

Basándose en algunos ejemplos (cf., esta entrada del blog: PCA y agrupación de K-means de aviones Delta ), descubrí que la forma de hacer el análisis es:

  1. Primero haga el análisis PCA.

  2. Determine el número de grupos únicos (clusters) basándose en los resultados del ACP (por ejemplo, utilizando el método del "codo", o alternativamente, el número de componentes que explica entre el 80 y el 90% de la varianza total).

  3. Una vez determinado el número de clusters, se aplica la agrupación de k-means para realizar la clasificación.

Mis preguntas: parece que el número de componentes del PCA está relacionado con el análisis de clusters. Así que si eso es cierto, si, digamos, encontramos que 5 componentes PCA explican más del 90% de la variación de todas las características, entonces aplicaríamos el clustering de k-means y obtendríamos 5 clusters. Entonces, ¿los 5 grupos corresponderían exactamente a los 5 componentes del análisis PCA?

En otras palabras, supongo que mi pregunta es: ¿Cuál es la conexión entre el análisis PCA y la agrupación k-means?

Actualizaciones: Gracias a las aportaciones de Emre, xeon y Kirill. Así que las respuestas actuales:

  1. Hacer el PCA antes del análisis de clustering también es útil para la reducción de la dimensionalidad como extractor de características y visualizar/revelar los clusters.

  2. Hacer el ACP después de la agrupación puede validar el algoritmo de agrupación (referencia: Análisis de componentes principales del núcleo ).

  3. El PCA se aplica a veces para reducir la dimensionalidad del conjunto de datos antes de la agrupación. Sin embargo, Yeung y Ruzzo (2000) demostraron que la agrupación con las PC en lugar de las variables originales no mejora necesariamente la calidad de la agrupación. En particular, los primeros PC (que contienen la mayor parte de la variación de los datos) no capturan necesariamente la mayor parte de la estructura del cluster.

    • Yeung, Ka Yee, y Walter L. Ruzzo. Un estudio empírico sobre el análisis de componentes principales para la agrupación de datos de expresión génica. Informe técnico, Departamento de Ciencias e Ingeniería Informática, Universidad de Washington, 2000. ( pdf )
  4. Parece que el PCA es necesario antes de una análisis de agrupación en dos etapas . Basado en Ibes (2015), en el que se ejecutó el análisis de conglomerados utilizando los factores identificados en el ACP.

17voto

Pavneet Puntos 6

El PCA no es un método de agrupación. Pero a veces ayuda a revelar clusters.

Supongamos que se tienen distribuciones normales de 10 dimensiones con media $0_{10}$ (vector de ceros) y alguna matriz de covarianza con 3 direcciones que tienen mayor varianza que otras. La aplicación del análisis de componentes principales con 3 componentes le dará estas direcciones en orden decreciente y el enfoque "codo" le dirá que esta cantidad de componentes elegidos es correcta. Sin embargo, seguirá siendo una nube de puntos (1 cluster).

Supongamos que se tienen 10 distribuciones normales de 10 dimensiones con medias $1_{10}$ , $2_{10}$ , ... $10_{10}$ (las medias se mantienen casi en la línea) y matrices de covarianza similares. Aplicando el ACP con un solo componente (después de la estandarización) obtendrá la dirección en la que observará los 10 clusters. Analizando la varianza explicada (enfoque "codo"), verá que 1 componente es suficiente para describir estos datos.

En el enlace que muestras el PCA se utiliza sólo para construir algunas hipótesis sobre los datos. La cantidad de conglomerados se determina mediante un enfoque de "codo" según el valor de la suma de cuadrados dentro de los grupos (no por la varianza explicada). Básicamente, se repite el algoritmo de K-means para diferentes cantidades de clusters y se calcula esta suma de cuadrados. Si el número de clusters es igual al número de puntos de datos, entonces la suma de cuadrados es igual a $0$ .

-2voto

JeeyCi Puntos 1

A mi opinión:

PCA extrae las principales características no relacionadas ( x ) que explica la mayor parte de la variedad en y=f(x).

Análisis de clústeres extrae principalmente grupos de muestras y sus etiquetas (o y resulta en y=f(x) )

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X