15 votos

¿Demostrando que el OLS estimador es equivariante de escala?

No tengo una definición formal de escala equivariance, pero aquí es lo que Introducción a la Estadística de Aprendizaje dice acerca de esto en la página. 217:

El estándar de mínimos cuadrados de los coeficientes de... son de escala equivariant: multiplicando $X_j$ por una constante $c$ simplemente conduce a un incremento de los mínimos cuadrados de los coeficientes estimados por un factor de $1/c$.

Para simplificar, vamos a suponer que el modelo lineal general $\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon$, donde $\mathbf{y} \in \mathbb{R}^N$, $\mathbf{X}$ es una $N \times (p+1)$ matriz (donde $p+1 < N$) con todas las entradas en $\mathbb{R}$, $\boldsymbol\beta \in \mathbb{R}^{p+1}$, y $\boldsymbol\epsilon$ $N$- dimensiones del vector de reales-valores de variables aleatorias con $\mathbb{E}[\boldsymbol\epsilon] = \mathbf{0}_{N \times 1}$.

De la estimación OLS, sabemos que si $\mathbf{X}$ total (columna) de rango, $$\hat{\boldsymbol\beta}_{\mathbf{X}} = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}\text{.}$$ Supongamos que multiplica una columna de $\mathbf{X}$, decir $\mathbf{x}_k$ algunos $k \in \{1, 2, \dots, p+1\}$, por una constante $c \neq 0$. Esto sería equivalente a la matriz \begin{equation} \mathbf{X}\underbrace{\begin{bmatrix} 1 & \\ & 1 \\ & & \ddots \\ & & & 1 \\ & & & & c\\ & & & & & 1 \\ & & & & & &\ddots \\ & & & & & & & 1 \end{bmatrix}}_{\mathbf{S}} = \begin{bmatrix} \mathbf{x}_1 & \mathbf{x}_2 & \cdots & c\mathbf{x}_{k} & \cdots & \mathbf{x}_{p+1}\end{bmatrix} \equiv \tilde{\mathbf{X}} \end{equation} donde todas las demás entradas de la matriz $\mathbf{S}$ por encima de se $0$, e $c$ $k$th entrada de la diagonal de a $\mathbf{S}$. A continuación, $\tilde{\mathbf X}$ total (columna) rango así, y como resultado el estimador de MCO utilizando $\tilde{\mathbf X}$ como el nuevo diseño de la matriz es $$\hat{\boldsymbol\beta}_{\tilde{\mathbf{X}}} = \left(\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}}\right)^{-1}\tilde{\mathbf{X}}^{T}\mathbf{y}\text{.}$$ Después de algo de trabajo, uno puede mostrar que $$\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}} = \begin{bmatrix} \mathbf{x}_1^{T}\mathbf{x}_1 & \mathbf{x}_1^{T}\mathbf{x}_2 & \cdots & c\mathbf{x}_1^{T}\mathbf{x}_k & \cdots & \mathbf{x}_1^{T}\mathbf{x}_{p+1} \\ \mathbf{x}_2^{T}\mathbf{x}_1 & \mathbf{x}_2^{T}\mathbf{x}_2 & \cdots & c\mathbf{x}_2^{T}\mathbf{x}_k & \cdots & \mathbf{x}_2^{T}\mathbf{x}_{p+1} \\ \vdots & \vdots & \ddots & \vdots & \cdots & \vdots \\ c\mathbf{x}_k^{T}\mathbf{x}_1 & c\mathbf{x}_k^{T}\mathbf{x}_2 & \cdots & c^2\mathbf{x}_k^{T}\mathbf{x}_k & \cdots & c\mathbf{x}_k^{T}\mathbf{x}_{p+1} \\ \vdots & \vdots & \vdots & \vdots & \cdots & \vdots \\ \mathbf{x}_{p+1}^{T}\mathbf{x}_1 & \mathbf{x}_{p+1}^{T}\mathbf{x}_2 & \cdots & c\mathbf{x}_{p+1}^{T}\mathbf{x}_{p+1} & \cdots & \mathbf{x}_{p+1}^{T}\mathbf{x}_{p+1} \\ \end{bmatrix}$$ y $$\tilde{\mathbf{X}}^{T}\mathbf{y} = \begin{bmatrix} \mathbf{x}_1^{T}\mathbf{y} \\ \mathbf{x}_2^{T}\mathbf{y} \\ \vdots \\ c\mathbf{x}_k^{T}\mathbf{y} \\ \vdots \\ \mathbf{x}_{p+1}^{T}\mathbf{y} \end{bmatrix}$$ ¿Cómo puedo ir de aquí para mostrar la reclamación citada anteriormente (es decir, que $\hat{\boldsymbol\beta}_{\tilde{\mathbf{X}}} = \dfrac{1}{c}\hat{\boldsymbol\beta}_{\mathbf{X}}$)? No es claro para mí cómo calcular $(\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}})^{-1}$.

13voto

jldugger Puntos 7490

Desde la afirmación de la cita es una colección de declaraciones acerca de reescalado de las columnas de a $X$, así podría demostrar todas a la vez. De hecho, se necesita más trabajo para demostrar una generalización de la afirmación:

Al $X$ es de derecha, multiplicado por una matriz invertible $A$, entonces el nuevo coeficiente de estimación $\hat\beta_A$ es igual a $\hat \beta$ a la izquierda-multiplicado por $A^{-1}$.

La única algebraica de los hechos que usted necesita son los (fácil de probar, más conocidos) que $(AB)^\prime=B^\prime A^\prime$ para cualquier matrices $AB$ $(AB)^{-1}=B^{-1}A^{-1}$ para invertir matrices $A$$B$. (Una versión más sutil de la última es necesaria cuando se trabaja con la generalizada inversos: para invertible $A$ $B$ y cualquier $X$, $(AXB)^{-} = B^{-1}X^{-}A^{-1}$.)


Prueba de álgebra: $$\hat\beta_A = ((XA)^\prime ((XA))^{-}(XA)^\prime y = A^{-1}(X^\prime X)^{-} (A^\prime)^{-1}A^\prime y = A^{-1}\hat \beta,$$

QED. (Para que esta prueba sea totalmente general, el $^-$ superíndice se refiere a una inversa generalizada.)


A prueba de geometría:

Dado bases de $E_p$$E_n$$\mathbb{R}^n$$\mathbb{R}^p$, respectivamente, $X$ representa una transformación lineal de$\mathbb{R}^p$$\mathbb{R}^n$. Haga la multiplicación de $X$ $A$ puede ser considerado como salir de esta transformación fijo , pero el cambio de $E_p$ $AE_p$(es decir, las columnas de a $A$). En virtud de que el cambio de base, la representación de cualquier vector $\hat\beta\in\mathbb{R}^p$ debe cambiar a través de la izquierda-la multiplicación por $A^{-1}$, QED.

(Esta prueba funciona, sin modificaciones, aún cuando $X^\prime X$ no es invertible.)


La cita se refiere específicamente al caso de la diagonal de las matrices de $A$$A_{ii}=1$$i\ne j$$A_{jj}=c$.


Conexión con mínimos cuadrados

El objetivo aquí es el uso de los primeros principios para obtener el resultado, con el principio de los mínimos cuadrados: estimación de los coeficientes que minimizan la suma de cuadrados de los residuales.

De nuevo, lo que demuestra una (enorme) generalización demuestra no más difícil y es bastante revelador. Supongamos que $$\phi:V^p\to W^n$$ is any map (linear or not) of real vector spaces and suppose $Q$ is any real-valued function on $W^n$. Let $U\subconjunto de V^p$ be the (possibly empty) set of points $v$ for which $Q(\phi(v))$ es minimizado.

Resultado: $U$, el cual es determinado únicamente por $Q$$\phi$, no depende de la elección de la base $E_p$ se utiliza para representar vectores en $V^p$.

Prueba: QED.

No hay nada que probar!

Aplicación del resultado: Deje $F$ positivo, semidefinite forma cuadrática en $\mathbb{R}^n$, vamos a $y\in\mathbb{R}^n$, y supongamos $\phi$ es lineal en el mapa representado por $X$ cuando las bases de $V^p=\mathbb{R}^p$ $W^n=\mathbb{R}^n$ son elegidos. Definir $Q(x)=F(y,x)$. Elegir una base de $\mathbb{R}^p$ y supongamos $\hat\beta$ es la representación de algunos de los $v\in U$ en base a eso. Este es de los mínimos cuadrados: $x=X\hat\beta$ minimiza el cuadrado de la distancia $F(y,x)$. Debido a $X$ es lineal en el mapa, el cambio de la base de $\mathbb{R}^p$ corresponde a derecha-multiplicando $X$ por algunos invertible la matriz de $A$. Que la izquierda se multiplican $\hat\beta$$A^{-1}$, QED.

8voto

zoldsegzizi Puntos 1

Definir el estimador de mínimos cuadrados $\hat\beta = \arg\min_{\beta\in\mathbb{R}^p} \|y - X \beta\|_2^2$, donde el diseño de la matriz de $X \in \mathbb{R}^{n \times p}$ es de rango completo. Suponiendo que la ampliación de la matriz $S \in \mathbb{R}^{p \times p}$ es invertible.

Definir esta nueva escala estimador $\tilde\alpha = \arg\min_{\alpha\in\mathbb{R}^p} \|y - X S \alpha\|_2^2$. Esto significa que $$\|y - X S \tilde\alpha\|_2^2 < \|y - X S \alpha\|_2^2$$ for all $\alpha\ne \tilde\alpha$. Defining $\tilde\beta = S \tilde\alpha$, we can rewrite this displayed inequality above as $$\|y - X \tilde\beta \|_2^2 < \|y - X \beta \|_2^2$$ for all $\beta \ne \tilde\beta$. Therefore $\tilde\beta = \arg\min_{\beta \in \mathbb{R}^p} \|y - X \beta\|_2^2$, y de ello se sigue que el estimador de mínimos cuadrados \begin{align*} \hat\beta = \tilde\beta = S \tilde\alpha. \end{align*} Debido a la invertibility de la ampliación de la matriz $S$, se deduce que el $\tilde\alpha = S^{-1} \hat\beta$. En nuestro caso, esto sólo se diferencia de $\hat\beta$ $k^\mathrm{th}$ entrada que se va a escalar por $\frac{1}{c}$.

6voto

Indio Puntos 1

Me di cuenta de esto después de la publicación de la pregunta. Si mi trabajo es correcta, sin embargo, me malinterprete, la reclamación. El $\dfrac{1}{c}$ escala sólo se produce en el componente de $\boldsymbol\beta$ correspondiente a la columna de $\mathbf{X}$ que se multiplica por $c$.

Observe que $\mathbf{S}$, en la notación anterior, es una diagonal, simétrica $(p+1) \times (p+1)$ matriz y tiene inversa (porque es diagonal) $$\mathbf{S}^{-1} = \begin{bmatrix} 1 & \\ & 1 \\ & & \ddots \\ & & & 1 \\ & & & & \frac{1}{c}\\ & & & & & 1 \\ & & & & & &\ddots \\ & & & & & & & 1 \end{bmatrix}\text{.}$$ Tenga en cuenta que $(\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}})^{-1}$ $(p+1)\times(p+1)$ matriz. Supongamos que $$(\mathbf{X}^{T}\mathbf{X})^{-1} = \begin{bmatrix} \mathbf{z}_1 & \mathbf{z}_2 & \cdots & \mathbf{z}_k & \cdots & \mathbf{z}_{p+1} \end{bmatrix}\text{.}$$ Luego de ello se sigue que $$(\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}})^{-1} = [(\mathbf{X}\mathbf{S})^{T}\mathbf{X}\mathbf{S}]^{-1} = (\mathbf{S}^{T}\mathbf{X}^{T}\mathbf{X}\mathbf{S})^{-1} = (\mathbf{S}\mathbf{X}^{T}\mathbf{X}\mathbf{S})^{-1}=\mathbf{S}^{-1}(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{S}^{-1}\text{.}$$ Por lo tanto, $$\mathbf{S}^{-1}(\mathbf{X}^{T}\mathbf{X})^{-1} = \begin{bmatrix} \mathbf{z}_1 \\ & \mathbf{z}_2 \\ & & \ddots \\ & & & \frac{1}{c}\mathbf{z}_k \\ & & & & \ddots \\ & & & & & \mathbf{z}_{p+1} \end{bmatrix}$$ y multiplicando este por $\mathbf{S}^{-1}$ tiene un efecto similar a lo que multiplicando $\mathbf{X}$ $\mathbf{S}$ lo hizo - que sigue siendo el mismo, con la excepción de $\frac{1}{c}\mathbf{z}_k$ se multiplica por $\frac{1}{c}$: $$\mathbf{S}^{-1}(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{S}^{-1} = \begin{bmatrix} \mathbf{z}_1 \\ & \mathbf{z}_2 \\ & & \ddots \\ & & & \frac{1}{c^2}\mathbf{z}_k \\ & & & & \ddots \\ & & & & & \mathbf{z}_{p+1} \end{bmatrix}\text{.}$$ Por lo tanto, $$\begin{align} \hat{\boldsymbol\beta}_{\tilde{\mathbf{X}}}&=\mathbf{S}^{-1}(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{S}^{-1}(\mathbf{X}\mathbf{S})^{T}\mathbf{y} \\ &= \begin{bmatrix} \mathbf{z}_1 \\ & \mathbf{z}_2 \\ & & \ddots \\ & & & \frac{1}{c^2}\mathbf{z}_k \\ & & & & \ddots \\ & & & & & \mathbf{z}_{p+1} \end{bmatrix}\begin{bmatrix} \mathbf{x}_1^{T}\mathbf{y} \\ \mathbf{x}_2^{T}\mathbf{y} \\ \vdots \\ c\mathbf{x}_k^{T}\mathbf{y} \\ \vdots \\ \mathbf{x}_{p+1}^{T}\mathbf{y} \end{bmatrix} \\ y= \begin{bmatrix} \mathbf{z}_1\mathbf{x}_1^{T}\mathbf{y} \\ \mathbf{z}_2\mathbf{x}_2^{T}\mathbf{y} \\ \vdots \\ \frac{1}{c}\mathbf{z}_k\mathbf{x}_k^{T}\mathbf{y} \\ \vdots \\ \mathbf{z}_{p+1}\mathbf{x}_{p+1}^{T}\mathbf{y} \end{bmatrix} \end{align}$$ como se desee.

3voto

Aksakal Puntos 11351

La Más Trivial De La Prueba Alguna Vez

Usted comienza con la ecuación lineal: $$Y=X\beta+\varepsilon$$ Ahora desea cambiar la escala de su regresores, tal vez la conversión del sistema métrico a Imperial, usted sabe kilogramos a libras, metros a yardas, etc. Así que, te salen con la matriz de conversión $S=diag(s_1,s_1,\dots,s_n)$ donde cada una de las $s_i$ es el coeficiente de conversión de la variable (columna) $i$ en el diseño de la matriz de $X$.

Vamos a re-escribir la ecuación: $$Y=(XS)(S^{-1}\beta)+\varepsilon$$

Ahora es muy claro que la escala es el de la propiedad de linealidad de la ecuación, no OLS método de estimación de los coeficientes. Independientemente del método de estimación con la ecuación lineal que tiene es que cuando los regresores se escalan de la $XS$ sus nuevos coeficientes se deben escalar como $S^{-1}\beta$

La prueba mediante el Álgebra de OLS Sólo

La escala es este: $$Z=X*diag(s_1,s_2,...,s_n)$$ donde $s_i$ factor de escala de cada variable (columna), y $Z$ una versión a escala de la $X$. Vamos a llamar a la diagonal de la escala de la matriz $S\equiv diag(s_1,s_2,...,s_n)$. Su estimador OLS es $$\hat\beta=(X^TX)^{-1}X^TY$$ Vamos a enchufe de la escala de la matriz $Z$ en lugar de $X$ y el uso de algunas de álgebra de matrices: $$(Z^TZ)^{-1}Z^TY=(S^TX^TX)^{-1}S^TX^TY=S^{-1}(X^TX)^{-1}S^{-1}SX^TY\\ =S^{-1}(X^TX)^{-1}X^TY=S^{-1}\hat\beta$$ Así, se puede ver cómo el nuevo coeficiente es simplemente el viejo coeficiente de escala, como se esperaba.

3voto

Tomer Cohen Puntos 121

Una manera fácil de obtener este resultado es recordar que $\hat{y}$ es la proyección de $y$ en la columna de espacio de $X.$ $\hat{\beta}$ es el vector de coeficientes al $\hat{y}$ se expresa como una combinación lineal de las columnas de a $X$. Si alguna columna es escalado por un factor de $c$, es claro que el coeficiente correspondiente en la combinación lineal debe ser escalado por $1/c$.

Deje $b_i$ ser los valores de $\hat{\beta}$ $a_i$ ser los valores de la OLS solución cuando una columna es escalado por $c.$ $$b_1x_1 + ... + b_ix_i + ...+ b_mx_m = a_1x_1 + ... a_i(cx_i) + ... +a_nx_n$$

implica que $b_j = a_j$ donde$j \neq i$$b_i = a_ic$, suponiendo que las columnas de a $X$ son linealmente independientes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X