Estoy trabajando con algunos tramos de modelos de regresión lineal, y me gustaría comparar sus predicciones con los producidos por múltiples (ponderado) de los modelos de regresión lineal. Ambos modelos describen el mismo sistema físico, pero tienen muy diferentes parametrizaciones de la variable independiente. Los dos diferentes parametrizaciones son tales que las medias de las variables independientes son muy diferentes, es decir, llamar a $x_1$ las variables independientes en virtud de la primera parametrización, y $x_2$ el ind. vars. en el segundo de la parametrización. En general, he a $\mathbb{E}x_1 \gg \mathbb{E}x_2$. Este (a su vez) significa que el modelo de coeficientes pueden ser muy diferentes.
Además, es a veces el caso de que los trozos de regresión lineal puede tener un segmento con pendiente = 0 y intercept = 0, lo que podría parecer a causa de un problema para un dato de CVRMSE.
La mejor manera que se me ocurre para comparar estos dos modelos es usar un entrenamiento y un conjunto de pruebas, pero luego, no estoy seguro de lo de la estadística que debo calcular a (algoritmos) de decir "esto es mejor". Hay una manera mejor para discriminar entre estos dos modelos en un a priori de la forma?