+1, creo que este es un muy interesante y claramente la pregunta. Sin embargo, más información nos ayudará a pensar en esta situación.
Por ejemplo, ¿cuál es la relación entre el$x_n$$y$? Es muy posible que no hay uno, en cuyo caso, la regresión $(1)$ no ofrece ninguna ventaja con respecto a la regresión $(2)$. (En realidad, es en una muy ligera desventaja, en el sentido de que los errores estándar será un poco más grande, y por lo tanto las betas podría ser un poco más, en promedio, de sus verdaderos valores.) Si hay una función de mapeo $x_n$$y$, entonces, por definición, no es real la información que hay, y la regresión $(1)$ va a ser mejor que en la situación inicial.
Siguiente, ¿cuál es la naturaleza de la relación entre el$(x_1, \cdots, x_{n-1})$$x_n$? Hay uno? Por ejemplo, cuando llevamos a cabo experimentos, (generalmente) tratamos de asignar el mismo número de unidades de estudio para cada combinación de valores de las variables explicativas. (Este enfoque utiliza un múltiplo del producto Cartesiano de los niveles de la IV, y se denomina " factorial completo de diseño; también hay casos donde los niveles son intencionalmente confundido para guardar datos, llamado 'factorial fraccional' diseños.) Si las variables explicativas son ortogonales, su tercera regresión dará absolutamente, exactamente 0. Por otro lado, en un estudio observacional que las covariables son casi siempre correlacionados. Más fuerte que la correlación, la que menos información existe en $x_n$. Estos hechos se modulan los méritos relativos de regresión $(1)$ y regresión $(2)$.
Sin embargo, (por desgracia) es más complicado que eso. Uno de los importantes, pero es difícil, los conceptos de regresión múltiple es la multicolinealidad. En caso de que trate de estimar la regresión $(4)$, usted encontrará que usted tiene perfecta multicolinealidad, y el software le dirá que el diseño de la matriz no es invertible. Así, mientras que la regresión $(1)$ puede ofrecer una ventaja con respecto a la regresión $(2)$, regresión $(4)$ no.
La pregunta más interesante (y el que usted está pidiendo a) es lo que si se utiliza la regresión $(1)$ hacer predicciones acerca de $y$ mediante el cálculo de la $x_n$ valores de salida a partir de las predicciones de regresión $(3)$? (Es decir, no eres la estimación de la regresión $(4)$—estás conectando la salida de la predicción de la ecuación estimada de regresión $(3)$ en el modelo de predicción de $(4)$.) La cosa es que usted no está realmente ganando cualquier nueva información aquí. Toda la información que existe en el primer $n-1$ predictor de valores para cada observación ya está siendo utilizado de manera óptima por regresión $(2)$, por lo que no hay ganancia.
Por lo tanto, la respuesta a tu primera pregunta es que bien podría ir con la regresión $(2)$ de sus predicciones para guardar el trabajo innecesario. Tenga en cuenta que he estado tratando con esto de una manera bastante abstracta, en lugar de abordar la situación concreta que usted describe en el que alguien de manos de dos conjuntos de datos (simplemente no puedo imaginar que esto ocurra). En lugar de eso, estoy pensando en esta pregunta, como tratando de entender algo bastante profundo acerca de la naturaleza de la regresión. Lo que ocurre, en ocasiones, sin embargo, es que algunas de las observaciones que tengan los valores en todos los predictores, y algunas otras observaciones (dentro del mismo conjunto de datos) faltan algunos valores en algunos de los predictores. Esto es particularmente común cuando se trata con datos longitudinales. En tal situación, usted quiere investigar múltiples de la imputación.