Antecedentes : Quiero clasificar las zonas residenciales de una ciudad en grupos en función de sus características socioeconómicas, incluyendo la densidad de unidades de vivienda, la densidad de población, la superficie de espacios verdes, el precio de la vivienda, el número de escuelas / centros de salud / guarderías, etc. Quiero saber en cuántos grupos diferentes se pueden dividir las zonas residenciales y cuáles son sus características únicas. Esta información podría facilitar la planificación de la ciudad.
Basándose en algunos ejemplos (cf., esta entrada del blog: PCA y agrupación de K-means de aviones Delta ), descubrí que la forma de hacer el análisis es:
-
Primero haga el análisis PCA.
-
Determine el número de grupos únicos (clusters) basándose en los resultados del ACP (por ejemplo, utilizando el método del "codo", o alternativamente, el número de componentes que explica entre el 80 y el 90% de la varianza total).
-
Una vez determinado el número de clusters, se aplica la agrupación de k-means para realizar la clasificación.
Mis preguntas: parece que el número de componentes del PCA está relacionado con el análisis de clusters. Así que si eso es cierto, si, digamos, encontramos que 5 componentes PCA explican más del 90% de la variación de todas las características, entonces aplicaríamos el clustering de k-means y obtendríamos 5 clusters. Entonces, ¿los 5 grupos corresponderían exactamente a los 5 componentes del análisis PCA?
En otras palabras, supongo que mi pregunta es: ¿Cuál es la conexión entre el análisis PCA y la agrupación k-means?
Actualizaciones: Gracias a las aportaciones de Emre, xeon y Kirill. Así que las respuestas actuales:
-
Hacer el PCA antes del análisis de clustering también es útil para la reducción de la dimensionalidad como extractor de características y visualizar/revelar los clusters.
-
Hacer el ACP después de la agrupación puede validar el algoritmo de agrupación (referencia: Análisis de componentes principales del núcleo ).
-
El PCA se aplica a veces para reducir la dimensionalidad del conjunto de datos antes de la agrupación. Sin embargo, Yeung y Ruzzo (2000) demostraron que la agrupación con las PC en lugar de las variables originales no mejora necesariamente la calidad de la agrupación. En particular, los primeros PC (que contienen la mayor parte de la variación de los datos) no capturan necesariamente la mayor parte de la estructura del cluster.
- Yeung, Ka Yee, y Walter L. Ruzzo. Un estudio empírico sobre el análisis de componentes principales para la agrupación de datos de expresión génica. Informe técnico, Departamento de Ciencias e Ingeniería Informática, Universidad de Washington, 2000. ( pdf )
-
Parece que el PCA es necesario antes de una análisis de agrupación en dos etapas . Basado en Ibes (2015), en el que se ejecutó el análisis de conglomerados utilizando los factores identificados en el ACP.
- Ibes, Dorothy C. Clasificación multidimensional y análisis de equidad de un sistema de parques urbanos: Una metodología novedosa y la aplicación de un estudio de caso. Paisaje y urbanismo , volumen 137, mayo de 2015, páginas 122-137.