¿Es posible visualizar los resultados del análisis de componentes principales de forma que ofrezcan más información que las tablas de resumen? ¿Es posible hacerlo cuando el número de observaciones es grande, digamos ~1e4? ¿Y es posible hacerlo en R [otros entornos son bienvenidos]?
Respuestas
¿Demasiados anuncios?El biplot es una herramienta útil para visualizar los resultados del PCA. Permite visualizar las puntuaciones de los componentes principales y las direcciones simultáneamente. Con 10.000 observaciones es probable que se encuentre con un problema de sobretrazado. La mezcla de alfa podría ayudar allí.
Aquí hay un biplot de PC del datos de vino del repositorio ML de la UCI :
Los puntos corresponden a las puntuaciones PC1 y PC2 de cada observación. Las flechas representan la correlación de las variables con PC1 y PC2. El círculo blanco indica la extensión máxima teórica de las flechas. Las elipses corresponden al 68% de los datos para cada una de las 3 variedades de vino de los datos.
He hecho el el código para generar este gráfico está disponible aquí .
Un gráfico de Wachter puede ayudarle a visualizar los valores propios de su PCA. Se trata esencialmente de un gráfico Q-Q de los valores propios frente a la distribución Marchenko-Pastur. Tengo un ejemplo aquí: Hay un valor propio dominante que cae fuera de la distribución de Marchenko-Pastur. La utilidad de este tipo de gráfico depende de su aplicación.