Solemos utilizar el ACP como técnica de reducción de la dimensionalidad para datos en los que se supone que los casos son i.i.d.
Pregunta: ¿Cuáles son los matices típicos en la aplicación de PCA para datos dependientes, no i.i.d.? ¿Qué propiedades agradables/útiles del ACP que se mantienen para los datos i.i.d. se ven comprometidas (o se pierden por completo)?
Por ejemplo, los datos podrían ser series temporales multivariantes, en cuyo caso cabría esperar autocorrelación o heteroscedasticidad condicional autorregresiva (ARCH).
Ya se han planteado anteriormente varias preguntas relacionadas sobre la aplicación del ACP a los datos de series temporales, por ejemplo 1 , 2 , 3 , 4 pero busco una respuesta más general y exhaustiva (sin necesidad de extenderme mucho en cada punto concreto).
Edita: Como señala @ttnphns, PCA sí mismo no es un análisis inferencial. Sin embargo, uno podría estar interesado en el rendimiento de generalización del ACP, es decir, centrarse en la contrapartida poblacional del ACP muestral. Por ejemplo, como se indica en Nadler (2008) :
Suponiendo que los datos dados sean una muestra finita y aleatoria de una distribución (generalmente desconocida), una cuestión teórica y práctica interesante es la relación entre los resultados del ACP muestral calculados a partir de datos finitos y los del modelo de población subyacente.
Referencias:
- Nadler, Boaz. "Resultados de aproximación de muestras finitas para el análisis de componentes principales: Un enfoque de perturbación matricial". Anales de Estadística (2008): 2791-2817.