Como CHL ya ha explicado el uso del centro y la escala para obtener variables estandarizadas, me ocuparé de la colinealidad:
Hay una buena razón para reducir las variables colineales cuando se agrupan.
La maldición de la dimensionalidad
Cuantas más dimensiones utilice, más probabilidades tendrá de ser víctima de La "maldición de la dimensionalidad" de Bellman . En resumen, cuanto mayor sea el número de dimensiones, mayor será el volumen total y mayor será la dispersión de sus datos en él. (Véase el enlace para más detalles).
Reducción de la dimensión --- manualmente mediante la inspección de la colinealidad por pares...
Usted menciona que ya ha reducido las variables de un número mayor a 5 utilizando medidas de colinealidad por pares.
Aunque esto funcionará, es bastante tedioso, ya que en general tendrá $n\choose 2$ número de pares a comprobar. (Así, por ejemplo, con 10 variables, tendría ${10 \choose 2} = 45$ diferentes pares para examinar - ¡demasiados para hacerlo manualmente en mi opinión!
Reducción de la dimensión --- automáticamente mediante el análisis de componentes principales (PCA)...
Una forma de manejar esto automáticamente es utilizar el Algoritmo PCA (análisis de componentes principales) . El concepto es más o menos lo que estás haciendo manualmente: clasificar las variables por la cantidad de información única que aporta cada una de ellas.
Así que proporciona a PCA su $n$ -El PCA ordenará las variables en función de la mayor varianza que cada una de ellas explique en los datos, eliminando básicamente las variables no colineales.
Dependiendo de si quiere clústeres bidimensionales o tridimensionales, utilizaría las 2 o 3 primeras variables del PCA.
Componentes principales en R
El algoritmo PCA está disponible (incorporado) en R.
En realidad hay varias funciones en R que hacen componentes principales.
He tenido éxito con prcomp()
.
Referencia estándar disponible gratuitamente en línea
Una de las mejores referencias disponibles es el clásico
Elementos de aprendizaje estadístico por Trevor Hastie, Robert Tibshirani y Jermoe Friedman
Los autores han tenido la gentileza de hacer el libro completo disponible (gratuitamente) como descarga en PDF de su página web de Stanford.
Hay excelentes capítulos sobre clustering, componentes principales y una gran sección sobre la maldición de la dimensionalidad.