4 votos

Pregunta conceptual/matemática/desafiante: Regresión lineal múltiple

Esto es una especie de rompecabezas y estoy luchando por resolverlo, cualquier idea para abordar esto sería valorada:

The Question:

He pensado en utilizar la sustitución de las diferentes x y z en la tercera ecuación de regresión para obtener un valor en términos de x y z pero no puedo ir más allá.

Sé que la fórmula del estadístico F para probar las restricciones de exclusión es en términos de SSR Formula 1

Y la fórmula en términos de R al cuadrado es: Formula 2

Cualquier consejo/guía/solución probable sería realmente útil. ¡Gracias de antemano!

4voto

jldugger Puntos 7490

Este conjunto de preguntas sondea su comprensión de las relaciones entre (a) las estimaciones de los parámetros y (b) su matriz de varianza-covarianza cuando se transforman las variables explicativas en una regresión por mínimos cuadrados ordinarios (MCO). Comencemos, pues, discutiendo esto de forma general. Y como se trata de una pregunta de autoaprendizaje, no proporcionaré los detalles: eso es para que disfrutes resolviéndolo.


Sea el modelo original

$$E[y] = X\beta$$

donde las columnas de la matriz del modelo $X$ son los valores de las variables explicativas (que pueden incluir un término constante o "intercepción") y $\beta$ es el correspondiente vector de coeficientes (desconocidos) que hay que estimar.

Supongamos, en cambio, que $X= Z\mathbb{A}$ expresa las variables en términos de otras variables $Z$ donde la matriz $\mathbb A$ representa un cambio lineal invertible de variables con inversa $\mathbb{A}^{-1}.$ Porque

$$X\beta = X\,\mathbb{A}^{-1}\mathbb{A}\,\beta = (X\mathbb{A}^{-1})\, (\mathbb{A}\beta) = Z(\mathbb{A}\beta),$$

escribiendo $\gamma=\mathbb{A}\beta$ para los nuevos parámetros el modelo se expresa como

$$E[y] = Z\gamma.$$

En consecuencia, cuando $\hat\beta$ es la estimación OLS de $\beta$ con una matriz de varianza-covarianza (estimada) $\widehat{\mathbb{V}} = \operatorname{Var}(\hat\beta),$ la correspondiente estimación de $\gamma$ debe ser $\hat\gamma = \mathbb{A}\hat\beta,$ porque ambos producen la misma suma de cuadrados de los residuos. Además, la matriz de varianza-covarianza de $\hat\gamma$ es

$$\widehat{\mathbb W} = \operatorname{Var}(\hat\gamma) = \operatorname{Var}(\mathbb{A}\hat\beta) = \mathbb{A}\operatorname{Var}(\hat\beta) \mathbb{A}^\prime = \mathbb{A}\widehat{\mathbb{V}}\mathbb{A}^\prime.$$

Estas observaciones permiten obtener rápidamente (y fácilmente) todos los valores que faltan, excepto (G), el $R^2$ para el modelo (3). Esto se puede determinar a partir de la $R^2$ y $SSR$ en los modelos (1) y (3). La idea es que los datos de la columna (1) bastan para determinar la varianza de $y.$ Eso y el $SSR$ en la columna (3) dan su $R^2$ valor.

Lo más difícil es encontrar los términos no diagonales de las matrices de varianza-covarianza. Esto equivale a determinar la covarianza de $v$ y $w$ (o, en su defecto, de $x$ y $z$ ). Como los modelos (1), (2) y (4) son equivalentes y los errores estándar (raíces cuadradas de los elementos diagonales de las matrices de varianza-covarianza) se dan sólo para (1), hay poca esperanza de encontrar la correlación a partir de esos datos solamente: así, el valor de la clave debe ser el error estándar de $v$ en el modelo (3). Para relacionarlo con el modelo (1), utilice el hecho de que $$\operatorname{Var}(v) = \operatorname{Var}(x+z) = \operatorname{Var}(x) + \operatorname{Var}(z) + 2\operatorname{Cov}(x,z).$$

Por último, dado que todos los modelos incluyen un intercepto, primero puede "eliminar" el intercepto (como es habitual) centrando todas las variables. Esto reduce sus modelos de tres (o dos) variables a sólo dos (o una). Además, la matriz SSP $X^\prime X$ será entonces un múltiplo de la matriz de covarianza de las variables. Esta matriz desempeña un papel destacado en las fórmulas para las estimaciones de los parámetros y las estimaciones de su matriz de varianza-covarianza: es en lo que hay que centrarse.


Tenga en cuenta que como la pregunta se refiere sólo a las estimaciones y a los errores estándar de estimación, nada depende de los supuestos de distribución. Ni siquiera pienses en Normal, Student t, o $F$ distribuciones: aunque podría calcular algunos de los valores perdidos de esa manera, sería un método bastante indirecto (esencialmente, estaría convirtiendo las estimaciones y los errores estándar en probabilidades y luego convirtiéndolos de nuevo) y probablemente bastante más complicado de lo necesario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X