13 votos

Hacer CCA vs. construir una variable dependiente con PCA y luego hacer la regresión

Dados dos conjuntos de datos multidimensionales, $X$ y $Y$ Algunos realizan el análisis multivariable construyendo una variable dependiente sustituta utilizando análisis de componentes principales (PCA). Es decir, ejecutar PCA en $Y$ conjunto, tomar las puntuaciones a lo largo del primer componente $y'$ y realizar una regresión múltiple de esas puntuaciones sobre $X$ : $y' = \beta X+\epsilon$ . (Estoy basando mi pregunta en este artículo ).

Parece una forma adulterada de análisis de correlación canónica (CCA) entre los dos conjuntos de datos para mí. Pero como no tengo experiencia en este campo, no puedo explicarlo. Así que mi pregunta es, ¿cuáles podrían ser los pros/contras del análisis PCA+regresión, comparado con el CCA?

La intuición dice que CCA debería ser más razonable aquí, ya que (creo) construye las variantes canónicas no para maximizar ciegamente la varianza explicada, sino ya con el propósito final de maximizar la correlación con $X$ en mente. ¿Estoy en lo cierto?


Referencia: Mei et al., 2010, Principal-component-based multivariate regression for genetic association studies of metabolic syndrome components

13voto

Uri Puntos 111

Esta es una buena pregunta, pero como parece que conoces PCA y CCA un trato, por lo que eres capaz de responderla tú mismo. Y lo haces:

[CCA] construye las variantes canónicas para no ciegamente [wrt la existencia de X] maximizar la varianza explicada [en Y], sino ya con el propósito final propósito de maximizar la correlación con X.

Absolutamente cierto. La correlación del PC de la 1ª Y con el conjunto X será casi siempre más débil que la correlación del CV de la 1ª Y con él. Esto se desprende de imágenes comparando las acciones de PCA con las de CCA.

El PCA+regresión que usted concibe es una estrategia de dos pasos, inicialmente "no supervisada" ("ciega", como usted dijo), mientras que el CCA es una estrategia de un solo paso, "supervisada". Ambos son válidos - ¡cada uno en su entorno de investigación!

Primer componente principal (PC1) obtenido en PCA del conjunto Y es una combinación lineal de las variables Y. La primera variante canónica (CV1) extraída del conjunto Y en CCA de los conjuntos Y y X es una combinación lineal de las variables Y, también. Pero son diferentes. (Explore las imágenes enlazadas, preste también atención a la frase que dice que el CCA está más cerca -en realidad es una forma de- de la regresión que del PCA).

PC1 representa set Y . Es el resumen lineal y el "adjunto" del conjunto Y, para afrontar las relaciones del mundo exterior más tarde (como en una regresión posterior de PC1 por las variables X).

CV1 representa set X en conjunto Y. Es la imagen lineal de X que pertenece a Y, el "interior" de Y. La relación Y-X es ya allí: El CCA es una regresión multivariante.

Supongamos que tengo los resultados de una muestra de niños en un cuestionario de ansiedad escolar (como el test de Phillips) - Y ítems, y sus resultados en un cuestionario de adaptación social - X ítems. Quiero establecer la relación entre los dos conjuntos. Los ítems tanto de X como de Y están correlacionados, pero son bastante diferentes y no me agrada la idea de sumar sin más las puntuaciones de los ítems en una única puntuación en cualquiera de los dos conjuntos, por lo que opto por seguir siendo multivariante.

Si lo hago PCA de Y, extrayendo PC1, y luego retroceder en los elementos X, ¿qué significa? Significa que respeto el cuestionario de ansiedad (ítems Y) como el dominio soberano (cerrado) de los fenómenos, que puede expresarse. Expresar emitiendo su mejor suma ponderada de ítems (que representa la varianza máxima) que representa todo el conjunto Y - su factor general/pivote/tendencia, "complejo de ansiedad escolar general", el PC1. No es antes de que se forme esa representación que paso a la siguiente pregunta cómo podría estar relacionada con la adaptación social, la pregunta que comprobaré en la regresión.

Si lo hago CCA de Y frente a X, extrayendo el primer par de variantes canónicas -una de cada conjunto- que tengan la máxima correlación, ¿qué significa? Significa que sospecho que hay un factor común entre (detrás de) la ansiedad y la adaptación que hace que se correlacionen entre sí. Sin embargo, no tengo ninguna razón ni fundamento para extraer o modelizar ese factor mediante PCA o análisis factorial del conjunto combinado "variables X + variables Y" (porque, por ejemplo, veo la ansiedad y la adaptación como dos dominios bastante diferentes conceptualmente, o porque los dos cuestionarios tienen escalas (unidades) muy diferentes o distribuciones de forma distinta que temo "fusionar", o el número de ítems es muy diferente en ellos). Me conformaré con la correlación canónica entre los conjuntos. O puede que no suponga ningún "factor común" detrás de los conjuntos, y piense simplemente que "X afecta a Y". Dado que Y es multivariable, el efecto es multidimensional, y estoy preguntando por el efecto más fuerte de primer orden. Viene dado por la 1ª correlación canónica y la variable de predicción que le corresponde es el CV1 del conjunto Y. El CV1 se extrae de Y, Y no es independiente productor de la misma.

2 votos

+1. Tal vez añadiría que el CCA, como cualquier otra regresión, es propenso al sobreajuste. Así que si Y y/o X incluyen muchas variables, entonces hacer CCA puede resultar en el primer componente en Y que es casi 100% predicho de X pero en realidad es totalmente debido al ruido. Hacer PCAs en X e Y antes de hacer CCA puede actuar como una especie de regularización. Reducir Y a un PC es una forma extrema de ello.

0 votos

@amoeba, gracias por el añadido. Toca el lado inferencial de la historia (población, significación, parsimonia) que omití completamente en la respuesta. Creo que entiendo lo que dices, pero lo dices de forma demasiado reservada, para alguien. El exceso de ajuste, el ruido - estas cosas deben ser explicadas, y por lo que tal vez le sugiero para emitir una respuesta separada para desenvolver su comentario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X