45 votos

¿Cómo se obtiene el estimador de mínimos cuadrados para la regresión lineal múltiple?

En el caso de la regresión lineal simple $y=\beta_0+\beta_1x$ se puede derivar el estimador de mínimos cuadrados $\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}$ de tal manera que no tienes que saber $\hat\beta_0$ para estimar $\hat\beta_1$

Supongamos que tengo $y=\beta_1x_1+\beta_2x_2$ ¿Cómo puedo obtener $\hat\beta_1$ sin estimar $\hat\beta_2$ ? ¿o no es posible?

1 votos

Se puede omitir una de las variables y seguir obteniendo una estimación insesgada de la otra si son independientes.

0 votos

62voto

25064 Puntos 11

La derivación en notación matricial

A partir de $y= Xb +\epsilon $ que en realidad es lo mismo que

$\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1K} \\ x_{21} & x_{22} & \cdots & x_{2K} \\ \vdots & \ddots & \ddots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NK} \end{bmatrix} * \begin{bmatrix} b_{1} \\ b_{2} \\ \vdots \\ b_{K} \end{bmatrix} + \begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{N} \end{bmatrix} $

todo se reduce a minimizar $e'e$ :

$\epsilon'\epsilon = \begin{bmatrix} e_{1} & e_{2} & \cdots & e_{N} \\ \end{bmatrix} \begin{bmatrix} e_{1} \\ e_{2} \\ \vdots \\ e_{N} \end{bmatrix} = \sum_{i=1}^{N}e_{i}^{2} $

Así que minimizar $e'e'$ nos da:

$min_{b}$ $e'e = (y-Xb)'(y-Xb)$

$min_{b}$ $e'e = y'y - 2b'X'y + b'X'Xb$

$\frac{\partial(e'e)}{\partial b} = -2X'y + 2X'Xb \stackrel{!}{=} 0$

$X'Xb=X'y$

$b=(X'X)^{-1}X'y$

Una última cosa matemática, la condición de segundo orden para un mínimo requiere que la matriz $X'X$ es positiva definida. Este requisito se cumple en el caso $X$ tiene el rango completo.

La derivación más precisa que recorre todos los pasos con mayor profundidad puede encontrarse en http://economictheoryblog.com/2015/02/19/ols_estimator/

3 votos

Esta derivación es precisamente lo que estaba buscando. NO SE SALTA NINGÚN PASO. Sorprende lo difícil que es encontrar la misma.

1 votos

En la ecuación matricial, ¿no debería el segundo * ser un + ? Además, ¿no debería ser $b_K$ en lugar de $b_N$ para que las dimensiones coincidan?

0 votos

Alexis Olson, ¡tienes razón! He editado mi respuesta.

20voto

jldugger Puntos 7490

Es posible estimar sólo un coeficiente en una regresión múltiple sin estimar los demás.

La estimación de $\beta_1$ se obtiene eliminando los efectos de $x_2$ de las otras variables y luego hacer una regresión de los residuos de $y$ contra los residuos de $x_1$ . Esto se explica e ilustra ¿Cómo se controlan exactamente otras variables? y ¿Cómo normalizar (a) el coeficiente de regresión? . La belleza de este enfoque es que no requiere cálculo ni álgebra lineal, puede visualizarse utilizando sólo geometría bidimensional, es numéricamente estable y explota sólo una idea fundamental de la regresión múltiple: la de eliminar (o "controlar") los efectos de una sola variable.


En el presente caso la regresión múltiple puede realizarse mediante tres pasos de regresión ordinaria:

  1. Regreso $y$ en $x_2$ (¡sin término constante!). Dejemos que el ajuste sea $y = \alpha_{y,2}x_2 + \delta$ . La estimación es $$\alpha_{y,2} = \frac{\sum_i y_i x_{2i}}{\sum_i x_{2i}^2}.$$ Por lo tanto, los residuos son $$\delta = y - \alpha_{y,2}x_2.$$ Geométricamente, $\delta$ es lo que queda de $y$ tras su proyección en $x_2$ se resta.

  2. Regreso $x_1$ en $x_2$ (sin término constante). Dejemos que el ajuste sea $x_1 = \alpha_{1,2}x_2 + \gamma$ . La estimación es $$\alpha_{1,2} = \frac{\sum_i x_{1i} x_{2i}}{\sum_i x_{2i}^2}.$$ Los residuos son $$\gamma = x_1 - \alpha_{1,2}x_2.$$ Geométricamente, $\gamma$ es lo que queda de $x_1$ tras su proyección en $x_2$ se resta.

  3. Regreso $\delta$ en $\gamma$ (sin término constante). La estimación es $$\hat\beta_1 = \frac{\sum_i \delta_i \gamma_i}{\sum_i \gamma_i^2}.$$ El ajuste será $\delta = \hat\beta_1 \gamma + \varepsilon$ . Geométricamente, $\hat\beta_1$ es el componente de $\delta$ (que representa $y$ con $x_2$ sacado) en el $\gamma$ dirección (que representa $x_1$ con $x_2$ sacado).

Observe que $\beta_2$ no se ha estimado. Se puede recuperar fácilmente a partir de lo que se ha obtenido hasta ahora (al igual que $\hat\beta_0$ en el caso de la regresión ordinaria se obtiene fácilmente a partir de la estimación de la pendiente $\hat\beta_1$ ). El $\varepsilon$ son los residuos de la regresión bivariada de $y$ en $x_1$ y $x_2$ .

El paralelismo con la regresión ordinaria es fuerte: Los pasos (1) y (2) son análogos a la resta de las medias en la fórmula habitual. Si se deja $x_2$ sea un vector de unos, se recuperará de hecho la fórmula habitual.

Esto se generaliza de forma obvia a la regresión con más de dos variables: para estimar $\hat\beta_1$ , retroceso $y$ y $x_1$ por separado contra todas las demás variables, y luego regresan sus residuos entre sí. En ese momento ninguno de los otros coeficientes en la regresión múltiple de $y$ todavía se han estimado.

1 votos

Gran respuesta, aquí hay un teorema general es.wikipedia.org/wiki/

7voto

user9529 Puntos 1

Se puede hacer una derivación sencilla utilizando la interpretación geométrica de LR.

La regresión lineal puede interpretarse como la proyección de $Y$ en el espacio de la columna $X$ . Por lo tanto, el error, $\hat{\epsilon}$ es ortogonal al espacio de columnas de $X$ .

Por lo tanto, el producto interior entre $X'$ y el error debe ser 0, es decir,

$<X', y-X\hat{\beta}> = 0$

$X'y - X'X\hat{\beta} = 0$

$X'y = X'X\hat{\beta}$

Lo que implica que,

$(X'X)^{-1}X'y = \hat{\beta}$ .

Ahora se puede hacer lo mismo:

(1) Proyección $Y$ en $X_2$ (error $\delta = Y-X_2 \hat{D}$ ), $\hat{D} = (X_2'X_2)^{-1}X_2'y$ ,

(2) Proyección $X_1$ en $X_2$ (error $\gamma = X_1 - X_2 \hat{G}$ ), $\hat{G} = (X_1'X_1)^{-1}X_1X_2$ ,

y finalmente,

(3) Proyección $\delta$ en $\gamma$ , $\hat{\beta}_1$

enter image description here

5voto

Grant Johnson Puntos 968

La estimación por mínimos cuadrados ordinarios de $\beta$ es una función lineal de la variable de respuesta . Simplemente, la estimación OLS de los coeficientes, el $\beta$ se puede escribir utilizando sólo la variable dependiente ( $Y_i$ ) y las variables independientes ( $X_{ki}$ 's).

Para explicar este hecho para un modelo de regresión general, es necesario entender un poco de álgebra lineal. Supongamos que quiere estimar los coeficientes $(\beta_0, \beta_1, ...,\beta_k)$ en un modelo de regresión múltiple,

$$ Y_i = \beta_0+\beta_1X_{1i}+...+\beta_kX_{ki}+\epsilon_i $$

donde $\epsilon_i \overset{iid}{\sim} N(0,\sigma^2)$ para $i=1,...,n$ . La matriz de diseño $\mathbf{X}$ es un $n\times k$ donde cada columna contiene el $n$ observaciones del $k^{th}$ variable dependiente $X_k$ . Puedes encontrar muchas explicaciones y derivaciones aquí de la fórmula utilizada para calcular los coeficientes estimados $\boldsymbol{\hat{\beta}}=(\hat{\beta}_0, \hat{\beta}_1, ..., \hat{\beta}_k)$ que es

$$ \boldsymbol{\hat{\beta}}=(\mathbf{X}^\prime \mathbf{X})^{-1}\mathbf{X}^\prime \mathbf{Y} $$

asumiendo que la inversa $(\mathbf{X}^\prime \mathbf{X})^{-1}$ existe. Los coeficientes estimados son funciones de los datos, no de los otros coeficientes estimados.

0 votos

Tengo una pregunta de seguimiento, en el caso de regresión simple, usted hace $y_i=\beta_0+\beta_1\bar x+\beta_1(x_i-\bar x)+e_i$ entonces $X$ se convierte en una matriz de $(1,...,1)$ y $(x_1-\bar x,...,x_n-\bar x)$ , a continuación, siga a través de la $\hat\beta=(X'X)^(-1)X'Y$ . ¿Cómo debo reescribir la ecuación en mi caso?

0 votos

Y una pregunta más, ¿se aplica esto a los casos en los que $x_1$ y $x_2$ no son lineales, pero el modelo sigue siendo lineal? Por ejemplo, la curva de descomposición $y=\beta_1 e^{x_1t}+\beta_2 e^{x_2t}$ ¿puedo sustituir el exponencial por $x_1'$ y $x_2'$ ¿entonces se convierte en mi pregunta original?

0 votos

En tu primer comentario, puedes centrar la variable (restarle la media) y utilizarla como variable independiente. Busca "regresión estandarizada". La fórmula que has escrito en términos de matrices no es correcta. Para tu segunda pregunta, sí puedes hacerlo, un modelo lineal es aquel que es lineal en $\beta$ Así pues, siempre que $y$ igual a una combinación lineal de $\beta$ 's estás bien.

4voto

Vincent Warmerdam Puntos 263

Una pequeña nota sobre la teoría y la práctica. Matemáticamente $\beta_0, \beta_1, \beta_2 ... \beta_n$ puede estimarse con la siguiente fórmula:

$$ \hat{\beta} = (X'X)^{-1} X'Y$$

donde $X$ son los datos de entrada originales y $Y$ es la variable que queremos estimar. Esto se deduce de la minimización del error. Lo demostraré antes de hacer una pequeña observación práctica.

Dejemos que $e_i$ sea el error que comete la regresión lineal en el punto $i$ . Entonces:

$$ e_i = y_i - \hat{y_i} $$

El error total al cuadrado que cometemos es ahora:

$$ \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2$$

Como tenemos un modelo lineal lo sabemos:

$$ \hat{y_i} = \beta_0 + \beta_1 x_{1,i} + \beta_2 x_{2,i} + ... + \beta_n x_{n,i} $$

Que se puede reescribir en notación matricial como

$$ \hat{Y} = X\beta $$

Sabemos que

$$ \sum_{i=1}^n e_i^2 = E'E $$

Queremos minimizar el error cuadrático total, de forma que la siguiente expresión sea lo más pequeña posible

$$ E'E = (Y-\hat{Y})' (Y-\hat{Y}) $$

Esto es igual a:

$$ E'E = (Y-X\beta)' (Y-X\beta)$$

La reescritura puede parecer confusa, pero se deduce del álgebra lineal. Observa que las matrices se comportan de forma similar a las variables cuando las multiplicamos en algunos aspectos.

Queremos encontrar los valores de $\beta$ de manera que esta expresión sea lo más pequeña posible. Tendremos que diferenciar y poner la derivada igual a cero. Aquí utilizamos la regla de la cadena.

$$ \frac{dE'E}{d\beta} = - 2 X'Y + 2 X'X\beta = 0$$

Esto da:

$$ X'X\beta = X'Y $$

Tal que finalmente: $$ \beta = (X'X)^{-1} X'Y $$

Así que, matemáticamente, parece que hemos encontrado una solución. Sin embargo, hay un problema, y es que $(X'X)^{-1}$ es muy difícil de calcular si la matriz $X$ es muy muy grande. Esto podría dar problemas de precisión numérica. Otra forma de encontrar los valores óptimos para $\beta$ en esta situación es utilizar un método del tipo de descenso de gradiente. La función que queremos optimizar no tiene límites y es convexa, por lo que en la práctica también utilizaríamos un método de gradiente si fuera necesario.

1 votos

Excepto que en realidad no es necesario calcular $(X'X)^{-1}$ ...

0 votos

También se podría utilizar el proceso de Gram Schmidt, pero sólo quería comentar que encontrar los valores óptimos para el $\beta$ vector también se puede hacer numéricamente debido a la convexidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X