Supongamos que tenemos dos matrices de características, $X_1$ y $X_2$ con variables de respuesta $Y_1$ y $Y_2.$ Donde $X_1$ y $X_2$ tienen las mismas columnas de características, pero observaciones distintas. Además, $Y_1$ y $Y_2$ son respuestas continuas medidas en diferentes escalas (es decir, la distribución subyacente de $Y_1$ es diferente a la distribución subyacente de $Y_2$ ). Supongamos que existe una función $f_Y$ tal que $Y_1 \approx f_Y(Y_2)$ .
¿Podemos combinar los conjuntos de datos $(X_1, Y_1)$ y $(X_2, Y_2)$ para aumentar el número de observaciones que tenemos para la regresión?
Por ejemplo, para las correspondencias $$ \begin{matrix} X_1 & \underset{(1)}{\rightarrow} & Y_1 \\ & & \downarrow\tiny(Y) \\ X_2 & \underset{(2)}{\rightarrow} & Y_2 \\ \end{matrix} $$ Se podría utilizar $\underset{(1)}{\rightarrow}$ y $\underset{(2)}{\rightarrow}$ para aprender $\downarrow\tiny(Y)$ y luego hacer una regresión con la transformación $Y_2$ valores para obtener:
$$ \left(\begin{matrix} X_1 \\ X_2 \\ \end{matrix}\right) \rightarrow \left(\begin{matrix} Y_1 \\ f_Y(Y_2) \\ \end{matrix}\right). $$
Como ejemplo de este problema en R, digamos que tenemos los datos simulados:
x1 = matrix(rnorm(500), nrow = 50)
x2 = matrix(rnorm(600), nrow = 60)
b1 = matrix(c(1,2,3, rep(0,7)), ncol = 1)
b2 = 2*(b1)^2
y1 = x1 %*% b1 + rnorm(50)
y2 = x2 %*% b2 + rnorm(60)
Podemos construir regresiones lineales simples lm(y1~x1)
y lm(y2~x2)
para aprender b1
y b2
pero supongamos que podemos aprender un predictor más potente si combinamos los conjuntos de datos.
¿Cómo combinamos estos datos?