20 votos

¿Puedo hacer un ACP con medidas repetidas para reducir los datos?

Tengo 3 ensayos sobre 87 animales en cada uno de los 2 contextos (faltan algunos datos; no faltan datos = 64 animales). Dentro de un contexto, tengo muchas medidas específicas (tiempo para entrar, número de veces que se vuelve al refugio, etc.), así que quiero desarrollar de 2 a 3 puntuaciones de comportamiento compuestas que describan el comportamiento en ese contexto (llámelas C1 , C2 , C3 ). Quiero un C1 que significa lo mismo en los 3 ensayos y en los 87 animales, de modo que puedo hacer una regresión para examinar el efecto de la edad, el sexo, el pedigrí y el animal individual en el comportamiento. Entonces quiero examinar cómo C1 se relaciona con las puntuaciones del comportamiento en el otro contexto, dentro de la edad particular. (A la edad de 1 año, ¿la actividad en el contexto 1 predice fuertemente la actividad en el contexto 2?)

Si no se tratara de medidas repetidas, un PCA funcionaría bien - hacer un PCA sobre las medidas múltiples de un contexto, luego usar PC1, PC2, etc. para examinar las relaciones (correlaciones de Spearman) entre PC1 en un contexto y PC1 (o 2 o 3) en el otro contexto. El problema son las medidas repetidas, que caen en la pseudoreplicación. Un revisor me ha dicho categóricamente que no, pero no encuentro referencias claras sobre si esto es problemático al hacer la reducción de datos.

Mi razonamiento es el siguiente: las medidas repetidas no son un problema, porque lo que estoy haciendo en el ACP es puramente descriptivo con respecto a las medidas originales. Si declaro por decreto que voy a utilizar el tiempo para entrar en la arena como mi medida de "audacia" en el contexto 1, tendría una medida de audacia en el contexto 1 que sería comparable a través de todos los individuos en todas las edades y nadie pestañearía. Si declaro por decreto que voy a utilizar $0.5\cdot$ tiempo de entrada $+\ 0.5\cdot$ tiempo hasta el final, lo mismo. Por lo tanto, si utilizo el ACP con fines puramente reductores, ¿por qué no puede ser PC1 (que podría ser $0.28\cdot$ entrar en $+\ 0.63\cdot$ terminar $+\ 0.02\cdot$ tiempo total...), que al menos está informado por mis múltiples medidas en lugar de mi suposición de que el tiempo de entrada es un rasgo generalmente informativo y representativo?

(Nota: soy no interesado en la estructura subyacente de las medidas... mis preguntas se refieren a lo que interpretamos que son los comportamientos específicos del contexto. "Si he utilizado el contexto 1 y he concluido que Harry es activo en comparación con otros animales, ¿veo a Harry activo en el contexto 2? Si cambia lo que interpretamos como actividad en el contexto 1 a medida que envejece, ¿también cambia su actividad en el contexto 2)?

He mirado el PARAFAC, y he mirado el SEM, y no estoy convencido de que ninguno de estos enfoques sea mejor o más apropiado para el tamaño de mi muestra. ¿Alguien puede opinar? Gracias.

0 votos

¿He entendido bien que hay dos factores intra-sujetos? 1) el contexto, que difiere por alguna condición experimental (por ejemplo, experimento en interiores frente a experimento en exteriores), 2) el ensayo, que es simplemente una repetición, un intento, de experimento. Y te gustaría hacer un ACP en cada una de las condiciones, pero te detiene que has hecho no uno sino varios ensayos del experimento.

0 votos

Los dos contextos son dos pruebas distintas, y las medidas adoptadas en cada una de ellas son diferentes. Dicho esto, sí, se entiende mi situación.

1 votos

¿Qué tal si evitamos el problema y realizamos un ACP sobre las medias de los tres ensayos?

16voto

Christopher Puntos 16

Podrías buscar en Análisis de factores múltiples . Esto se puede implementar en R con FactoMineR.

ACTUALIZACIÓN:

Para explicarlo mejor, Leann propuso -hace mucho tiempo- realizar un ACP en un conjunto de datos con medidas repetidas. Si entiendo correctamente la estructura de su conjunto de datos, para un "contexto" determinado tenía un animal x matriz de "medidas específicas" (tiempo de entrada, número de veces que se vuelve al refugio, etc.). Cada uno de los 64 animales (los que no faltan en las observaciones) fue seguido tres veces. Digamos que tenía 10 "medidas específicas", por lo que tendría tres matrices de 64×10 sobre el comportamiento de los animales (podemos llamar a las matrices X1 , X2 , X3 ). Para ejecutar un ACP en las tres matrices simultáneamente, tendría que "unir las filas" de las tres matrices (por ejemplo PCA(rbind(X1,X2,X3)) ). Pero esto ignora el hecho de que la primera y la 64ª observación están en el mismo animal. Para evitar este problema, puede "unir en columnas" las tres matrices y someterlas a un Análisis Factorial Múltiple. El AFM es una forma útil de analizar múltiples conjuntos de variables medidas en los mismos individuos u objetos en diferentes momentos. Podrá extraer los componentes principales del AMF del mismo modo que en un ACP, pero tendrá una única coordenada para cada animal. Los objetos animales se habrán colocado ahora en un espacio multivariante de compromiso delimitado por sus tres observaciones.

Podría ejecutar el análisis utilizando el paquete FactoMineR en R. El código de ejemplo sería algo así:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Además, en lugar de extraer los tres primeros componentes del AMF y someterlos a una regresión múltiple, podría pensar en proyectar sus variables explicativas directamente sobre el AMF como "tablas suplementarias" (véase ?FactoMineR ). Otro enfoque sería calcular una matriz de distancia euclidiana de las coordenadas del objeto a partir del AMF (por ejemplo dist1=vegdist(mfa1$ind$coord, "euc") ) y pasarlo por un RDA con dist1 en función de las variables específicas de los animales (por ejemplo rda(dist1~age+sex+pedigree) utilizando el paquete vegano).

3 votos

Hola Kyle, gracias por tu respuesta. Sin embargo, las respuestas que consisten esencialmente en poco más que un enlace, o que sólo tienen una frase, no se consideran generalmente respuestas, sino comentarios. En particular, las respuestas con enlaces sufren de link-rot, por lo que las respuestas deben tener suficiente información para ser útiles incluso si el enlace ya no funciona. ¿Podría ampliar su respuesta un poco más, tal vez dando un breve resumen de lo que es / cómo se relaciona con el análisis factorial en general?

3 votos

(+1) Me doy cuenta de que es un post antiguo, pero esta respuesta es muy útil. Tal vez habría que añadir la referencia completa en caso de que el enlace muera: Abdi Hervé, Williams Lynne J., Valentin Domininique. Análisis factorial múltiple: análisis de componentes principales para conjuntos de datos multiestablecidos y multibloque. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002/wics.1246

0 votos

Hola Kyle, muy bien he seguido tu respuesta pero no sé muy bien como interpretar los resultados del mfa. ¿Puedes tú o alguien más echar un vistazo a mi pregunta de seguimiento en este post? stats.stackexchange.com/questions/501334/ )

5voto

Alan LaMielle Puntos 53

Es habitual utilizar el ACP cuando se analizan medidas repetidas (por ejemplo, se utiliza para analizar datos de ventas, precios de las acciones y tipos de cambio) La lógica es la que usted articula (es decir, la justificación es que el ACP es una herramienta de reducción de datos, no una herramienta inferencial).

Una publicación de un estadístico bastante bueno es: Bradlow, E. T. (2002). " Exploración de conjuntos de datos de medidas repetidas en busca de características clave mediante el análisis de componentes principales. " Journal of Research in Marketing 19: 167-179.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X