1 votos

¿Puede utilizarse la CCA para sustituir los datos caros por los disponibles?

Tengo dos conjuntos de variables en el mismo conjunto de datos. Por ejemplo, DATA_free y DATA_exp. Sin embargo, DATA_exp se compone de variables que son muy caras/difíciles de obtener, mientras que DATA_free siempre está disponible fácilmente.

Me preguntaba si era posible utilizar el Análisis de Correlación Canónica entre estos dos conjuntos de variables para poder encontrar una combinación lineal de variables en DATA_free que explique mejor lo que hace DATA_exp, con la esperanza de que, si la correlación entre las dos combinaciones lineales es lo suficientemente alta, pueda dejar de depender de DATA_exp para calcular mis resultados.

¿Es esto razonable? ¿Algún consejo/ejemplo que me pueda dar? ¿Es esto teóricamente correcto?

0voto

Zolomon Puntos 250

Una combinación lineal de variables en DATA_free puede explicar, en el mejor de los casos, tanto como la combinación lineal correspondiente de variables en DATA_exp. Es decir, si la primera correlación canónica es 1, se obtendría tanta información de la primera canónica de DATA_free como de la primera variable canónica de DATA_exp.

Sin embargo: 1) La mayor correlación canónica rara vez será 1 (y todas las demás serán menores), y 2) Si DATA_free es de dimensión $p$ y DATA_exp es de dimensión $q$ con $p < q$ lo mejor que se puede esperar es replicar una $p$ -proyección dimensional de DATA_exp.

Por lo tanto, lo que se puede hacer depende del tamaño de las correlaciones canónicas y de las dimensiones relativas de DATA_free y DATA_exp.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X