Tengo $2$ $n\times p$ matrices, donde $n$ son las filas (muestras), y $p$ las columnas (medidas). Cada matriz tiene muestras y mediciones de diferentes grupos. Los llamo datos "brutos". He realizado un análisis de componentes principales de los datos brutos completos y he calculado la media de cada puntuación de PC por grupo. A esto último lo llamo la media de las puntuaciones de PC por grupo.
Mi pregunta es si las medias de las puntuaciones de PC por grupo (datos brutos $\rightarrow$ PCA $\rightarrow$ PC medias por grupo) diferirían de las puntuaciones de PC derivadas de un PCA realizado sobre las medias "brutas" de los grupos (datos brutos $\rightarrow$ media por grupo $\rightarrow$ PCA)?
Ejemplo de análisis de datos simulados
set.seed(123)
a <- matrix(rnorm(900),ncol=3,byrow=F)
a[1:100,] <- 4 + a[1:100,]
a[101:200,] <- -4 + a[101:200,]
# compute PCA and extract PC scores
pc <- prcomp(a)$x
plot(pc[,1:2],col=rep(c("red","blue","green"),each=100))
# compute PC means and plot
m <-rbind(colMeans(pc[1:100,1:2]),colMeans(pc[101:200,1:2]),colMeans(pc[201:300,1:2]))
points(m,col="black", pch=19,cex=1)
# compute means of raw data by group
b <- rbind(colMeans(a[1:100,]),colMeans(a[101:200,]),colMeans(a[201:300,]))
# conduct PCA on "raw means" and plot
pc2 <- prcomp(b)$x
points(pc2[,1:2],col="black", pch=17,cex=1)