Esta es una buena pregunta, pero como parece que conoces PCA y CCA un trato, por lo que eres capaz de responderla tú mismo. Y lo haces:
[CCA] construye las variantes canónicas para no ciegamente [wrt la existencia de X] maximizar la varianza explicada [en Y], sino ya con el propósito final propósito de maximizar la correlación con X.
Absolutamente cierto. La correlación del PC de la 1ª Y con el conjunto X será casi siempre más débil que la correlación del CV de la 1ª Y con él. Esto se desprende de imágenes comparando las acciones de PCA con las de CCA.
El PCA+regresión que usted concibe es una estrategia de dos pasos, inicialmente "no supervisada" ("ciega", como usted dijo), mientras que el CCA es una estrategia de un solo paso, "supervisada". Ambos son válidos - ¡cada uno en su entorno de investigación!
Primer componente principal (PC1) obtenido en PCA del conjunto Y es una combinación lineal de las variables Y. La primera variante canónica (CV1) extraída del conjunto Y en CCA de los conjuntos Y y X es una combinación lineal de las variables Y, también. Pero son diferentes. (Explore las imágenes enlazadas, preste también atención a la frase que dice que el CCA está más cerca -en realidad es una forma de- de la regresión que del PCA).
PC1 representa set Y . Es el resumen lineal y el "adjunto" del conjunto Y, para afrontar las relaciones del mundo exterior más tarde (como en una regresión posterior de PC1 por las variables X).
CV1 representa set X en conjunto Y. Es la imagen lineal de X que pertenece a Y, el "interior" de Y. La relación Y-X es ya allí: El CCA es una regresión multivariante.
Supongamos que tengo los resultados de una muestra de niños en un cuestionario de ansiedad escolar (como el test de Phillips) - Y ítems, y sus resultados en un cuestionario de adaptación social - X ítems. Quiero establecer la relación entre los dos conjuntos. Los ítems tanto de X como de Y están correlacionados, pero son bastante diferentes y no me agrada la idea de sumar sin más las puntuaciones de los ítems en una única puntuación en cualquiera de los dos conjuntos, por lo que opto por seguir siendo multivariante.
Si lo hago PCA de Y, extrayendo PC1, y luego retroceder en los elementos X, ¿qué significa? Significa que respeto el cuestionario de ansiedad (ítems Y) como el dominio soberano (cerrado) de los fenómenos, que puede expresarse. Expresar emitiendo su mejor suma ponderada de ítems (que representa la varianza máxima) que representa todo el conjunto Y - su factor general/pivote/tendencia, "complejo de ansiedad escolar general", el PC1. No es antes de que se forme esa representación que paso a la siguiente pregunta cómo podría estar relacionada con la adaptación social, la pregunta que comprobaré en la regresión.
Si lo hago CCA de Y frente a X, extrayendo el primer par de variantes canónicas -una de cada conjunto- que tengan la máxima correlación, ¿qué significa? Significa que sospecho que hay un factor común entre (detrás de) la ansiedad y la adaptación que hace que se correlacionen entre sí. Sin embargo, no tengo ninguna razón ni fundamento para extraer o modelizar ese factor mediante PCA o análisis factorial del conjunto combinado "variables X + variables Y" (porque, por ejemplo, veo la ansiedad y la adaptación como dos dominios bastante diferentes conceptualmente, o porque los dos cuestionarios tienen escalas (unidades) muy diferentes o distribuciones de forma distinta que temo "fusionar", o el número de ítems es muy diferente en ellos). Me conformaré con la correlación canónica entre los conjuntos. O puede que no suponga ningún "factor común" detrás de los conjuntos, y piense simplemente que "X afecta a Y". Dado que Y es multivariable, el efecto es multidimensional, y estoy preguntando por el efecto más fuerte de primer orden. Viene dado por la 1ª correlación canónica y la variable de predicción que le corresponde es el CV1 del conjunto Y. El CV1 se extrae de Y, Y no es independiente productor de la misma.