Es legítima la práctica se está describiendo. Como cuestión de hecho, tener todas las variables lineales, es una simplificación de la necesidad. Generalmente, no sabemos lo que es una verdadera relación entre las variables, así que el modelo lineal.
Si le sucede a conocer a las relaciones, a menudo no-lineal, entonces definitivamente ir a por ello.
He aquí un ejemplo, donde el verdadero proceso es $y_t=sin(\beta t)+\varepsilon_t$. Primer modelo con $y_t=\beta' t+\varepsilon_t$, entonces el modelo con una especificación correcta. En el primer caso el coeficiente viene, no significativa, en el segundo caso es significativo.
Código de MATLAB:
rng(0);
x = (1:100)'/100*pi;
% data generating process
y = sin(x) + randn(100,1)/2;
% fit linear x
fit = fitlm(x,y)
% fit sin(x)
fit2 = fitlm(sin(x),y)
plot([y fit.Fitted fit2.Fitted])
legend({'actual' ,'fitted x','fitted sin x'})
SALIDA:
fit =
Linear regression model:
y ~ 1 + x1
Estimated Coefficients:
Estimate SE tStat pValue
________ ________ _______ __________
(Intercept) 0.89621 0.12771 7.0177 2.9539e-10
x1 -0.12487 0.069885 -1.7868 0.077068
Number of observations: 100, Error degrees of freedom: 98
Root Mean Squared Error: 0.634
R-squared: 0.0315, Adjusted R-Squared 0.0217
F-statistic vs. constant model: 3.19, p-value = 0.0771
fit2 =
Linear regression model:
y ~ 1 + x1
Estimated Coefficients:
Estimate SE tStat pValue
________ _______ ______ __________
(Intercept) 0.13799 0.13389 1.0306 0.30527
x1 0.87991 0.18936 4.6468 1.0507e-05
Number of observations: 100, Error degrees of freedom: 98
Root Mean Squared Error: 0.583
R-squared: 0.181, Adjusted R-Squared 0.172
F-statistic vs. constant model: 21.6, p-value = 1.05e-05