DATOS NO TRANSFORMADOS (EN BRUTO): Si usted tiene variables con escalas muy variadas para los datos crudos, no transformados, es decir, la ingesta calórica por día, la expresión génica, ELISA/Luminex en unidades de ug/dl, ng/dl, basado en varios órdenes de magnitud de la expresión de la proteína, a continuación, utilizar la correlación como una entrada a PCA. Sin embargo, si todos sus datos se basan, por ejemplo, en la expresión génica de la misma plataforma con un rango y una escala similares, o si está trabajando con rendimientos de activos de renta variable logarítmica, entonces el uso de la correlación arrojará una enorme cantidad de información.
En realidad no es necesario pensar en la diferencia de utilizar la matriz de correlación $\mathbf{R}$ o la matriz de covarianza $\mathbf{C}$ como entrada al PCA, sino que se miran los valores diagonales de $\mathbf{C}$ y $\mathbf{R}$ . Se puede observar una variación de $100$ para una variable, y $10$ en otro -- que están en la diagonal de $\mathbf{C}$ . Pero al mirar las correlaciones, la diagonal contiene todos los unos, por lo que la varianza de cada variable se cambia esencialmente a $1$ al utilizar el $\mathbf{R}$ matriz.
DATOS TRANSFORMADOS: Si los datos han sido transformados a través de la normalización, los percentiles o la estandarización de la media a cero (es decir, $Z$ -scores), de modo que el rango y la escala de todas las variables continuas sea el mismo, entonces se podría utilizar la matriz de covarianza $\mathbf{C}$ sin ningún problema. (la correlación significará que las variables se estandarizan en cero). Recuerde, sin embargo, que estas transformaciones no eliminarán la asimetría (es decir, las colas izquierda o derecha en los histogramas) en sus variables antes de ejecutar el PCA . El análisis PCA típico no implica la eliminación de la asimetría; sin embargo, algunos lectores pueden necesitar eliminar la asimetría para cumplir con las estrictas restricciones de normalidad.
En resumen, utilice la matriz de correlación $\mathbf{R}$ cuando el rango y la escala dentro de las variables difieren ampliamente, y utilizar la matriz de covarianza $\mathbf{C}$ para preservar la varianza si el rango y la escala de las variables es similar o en las mismas unidades de medida.
VARIABLES ASIMÉTRICAS: Si alguna de las variables está sesgada con colas izquierdas o derechas en sus histogramas, es decir, la prueba de normalidad de Shapiro-Wilk o Lilliefors es significativa $(P<0.05)$ entonces puede haber algunos problemas si necesita aplicar el supuesto de normalidad. En este caso, utilice las puntuaciones de van der Waerden (transformaciones) determinadas de cada variable. La puntuación de van der Waerden (VDW) para una sola observación no es más que el mapa normal acumulativo inverso (estándar) del valor del percentil de la observación. Por ejemplo, supongamos que tenemos $n=100$ observaciones para una variable continua, puede determinar las puntuaciones VDW utilizando:
- En primer lugar, ordene los valores en orden ascendente y, a continuación, asigne rangos, de modo que obtendrá rangos de $R_i=1,2,\ldots,100.$
- A continuación, determine el percentil de cada observación como $pct_i=R_i/(n+1)$ .
- Una vez obtenidos los valores de los percentiles, introdúzcalos en la función de asignación inversa para la FCD de la distribución normal estándar, es decir $N(0,1)$ para obtener el $Z$ -para cada uno, utilizando $Z_i=\Phi^{-1}(pct_i)$ .
Por ejemplo, si se conecta un $pct_i$ valor 0,025, obtendrá $-1.96=\Phi^{-1}(0.025)$ . Lo mismo ocurre con un valor de plugin de $pct_i=0.975$ , obtendrá $1.96=\Phi^{-1}(0.975)$ .
El uso de las puntuaciones VDW es muy popular en genética, donde muchas variables se transforman en puntuaciones VDW y luego se introducen en los análisis. La ventaja de utilizar las puntuaciones VDW es que los efectos de asimetría y de valores atípicos se eliminan de los datos, y pueden utilizarse si el objetivo es realizar un análisis bajo las restricciones de la normalidad, y cada variable debe tener una distribución puramente normal, sin asimetría ni valores atípicos.
2 votos
Una respuesta tardía, pero puede encontrar folletos MUY útiles sobre el análisis de datos multivariados "à la française" en el Departamento de Bioinformática de Lyon. Estos provienen de los autores de la R ade4 paquete. Sin embargo, está en francés.
5 votos
Para más información, visite stats.stackexchange.com/questions/62677/ .
3 votos
Preguntas relacionadas con algunas respuestas relevantes: ¿Se realiza alguna vez el análisis factorial común utilizando la matriz de covarianza? y Si no se normalizan los datos antes del ACP, se obtiene una mejor relación de varianza explicada .