¿Difieren las medias de las puntuaciones de PC del grupo de las puntuaciones de PC de las medias del grupo?

Question

¿Difieren las medias de las puntuaciones de PC del grupo de las puntuaciones de PC de las medias del grupo?

Preguntado el 27 de Octubre, 2013: Cuando se hizo la pregunta
217 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo $2$ $n\times p$ matrices, donde $n$ son las filas (muestras), y $p$ las columnas (medidas). Cada matriz tiene muestras y mediciones de diferentes grupos. Los llamo datos "brutos". He realizado un análisis de componentes principales de los datos brutos completos y he calculado la media de cada puntuación de PC por grupo. A esto último lo llamo la media de las puntuaciones de PC por grupo.

Mi pregunta es si las medias de las puntuaciones de PC por grupo (datos brutos $\rightarrow$ PCA $\rightarrow$ PC medias por grupo) diferirían de las puntuaciones de PC derivadas de un PCA realizado sobre las medias "brutas" de los grupos (datos brutos $\rightarrow$ media por grupo $\rightarrow$ PCA)?

Ejemplo de análisis de datos simulados

set.seed(123) 
a <- matrix(rnorm(900),ncol=3,byrow=F) 
a[1:100,] <- 4 + a[1:100,] 
a[101:200,] <- -4 + a[101:200,]
# compute PCA and extract PC scores
pc <- prcomp(a)$x 
    plot(pc[,1:2],col=rep(c("red","blue","green"),each=100))
    # compute PC means and plot
    m <-rbind(colMeans(pc[1:100,1:2]),colMeans(pc[101:200,1:2]),colMeans(pc[201:300,1:2]))
    points(m,col="black", pch=19,cex=1)
    # compute means of raw data by group
    b <- rbind(colMeans(a[1:100,]),colMeans(a[101:200,]),colMeans(a[201:300,]))
    # conduct PCA on "raw means" and plot 
    pc2 <- prcomp(b)$x
points(pc2[,1:2],col="black", pch=17,cex=1)

Preguntado el 27 de Octubre, 2013 por Ricardo Amaral

Answer 1

1 Respuestas

Answer 2

1voto

Gyongyeee Puntos 38

La respuesta a su pregunta debería ser lógicamente "Sí". La media del grupo de la PC debería diferir de la PC de la media. Esto debería ocurrir por dos razones.

Estás transformando tus variables en PCs, que tratan de maximizar la interia total. Esto depende de la dispersión de los datos en las diferentes variables.
Una vez que se toman los medios se elimina la mayor parte de la inercia. El ACP será mucho más "exacto" (no es de extrañar que casi el 100% de la interferencia sea explicada por el primer componente), pero la composición del PC será diferente porque ya no hay mucha interferencia que explicar.

Se puede pensar en esto en términos de cómo funciona un PCA. El PCA se calcula utilizando distancias al cuadrado, maximizadas para el primer PCA. Si se elimina toda esta variabilidad, las estimaciones cambian.

Respondido el 28 de Octubre, 2013 por Gyongyeee (38 Puntos )

¿Difieren las medias de las puntuaciones de PC del grupo de las puntuaciones de PC de las medias del grupo?

Ejemplo de análisis de datos simulados

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Difieren las medias de las puntuaciones de PC del grupo de las puntuaciones de PC de las medias del grupo?

Ejemplo de análisis de datos simulados

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: