2 votos

¿Difieren las medias de las puntuaciones de PC del grupo de las puntuaciones de PC de las medias del grupo?

Tengo $2$ $n\times p$ matrices, donde $n$ son las filas (muestras), y $p$ las columnas (medidas). Cada matriz tiene muestras y mediciones de diferentes grupos. Los llamo datos "brutos". He realizado un análisis de componentes principales de los datos brutos completos y he calculado la media de cada puntuación de PC por grupo. A esto último lo llamo la media de las puntuaciones de PC por grupo.

Mi pregunta es si las medias de las puntuaciones de PC por grupo (datos brutos $\rightarrow$ PCA $\rightarrow$ PC medias por grupo) diferirían de las puntuaciones de PC derivadas de un PCA realizado sobre las medias "brutas" de los grupos (datos brutos $\rightarrow$ media por grupo $\rightarrow$ PCA)?


Ejemplo de análisis de datos simulados

set.seed(123) 
a <- matrix(rnorm(900),ncol=3,byrow=F) 
a[1:100,] <- 4 + a[1:100,] 
a[101:200,] <- -4 + a[101:200,]
# compute PCA and extract PC scores
pc <- prcomp(a)$x 
    plot(pc[,1:2],col=rep(c("red","blue","green"),each=100))
    # compute PC means and plot
    m <-rbind(colMeans(pc[1:100,1:2]),colMeans(pc[101:200,1:2]),colMeans(pc[201:300,1:2]))
    points(m,col="black", pch=19,cex=1)
    # compute means of raw data by group
    b <- rbind(colMeans(a[1:100,]),colMeans(a[101:200,]),colMeans(a[201:300,]))
    # conduct PCA on "raw means" and plot 
    pc2 <- prcomp(b)$x
points(pc2[,1:2],col="black", pch=17,cex=1)

1voto

Gyongyeee Puntos 38

La respuesta a su pregunta debería ser lógicamente "Sí". La media del grupo de la PC debería diferir de la PC de la media. Esto debería ocurrir por dos razones.

  1. Estás transformando tus variables en PCs, que tratan de maximizar la interia total. Esto depende de la dispersión de los datos en las diferentes variables.
  2. Una vez que se toman los medios se elimina la mayor parte de la inercia. El ACP será mucho más "exacto" (no es de extrañar que casi el 100% de la interferencia sea explicada por el primer componente), pero la composición del PC será diferente porque ya no hay mucha interferencia que explicar.

Se puede pensar en esto en términos de cómo funciona un PCA. El PCA se calcula utilizando distancias al cuadrado, maximizadas para el primer PCA. Si se elimina toda esta variabilidad, las estimaciones cambian.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X