No tengo una definición formal de escala equivariance, pero aquí es lo que Introducción a la Estadística de Aprendizaje dice acerca de esto en la página. 217:
El estándar de mínimos cuadrados de los coeficientes de... son de escala equivariant: multiplicando $X_j$ por una constante $c$ simplemente conduce a un incremento de los mínimos cuadrados de los coeficientes estimados por un factor de $1/c$.
Para simplificar, vamos a suponer que el modelo lineal general $\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon$, donde $\mathbf{y} \in \mathbb{R}^N$, $\mathbf{X}$ es una $N \times (p+1)$ matriz (donde $p+1 < N$) con todas las entradas en $\mathbb{R}$, $\boldsymbol\beta \in \mathbb{R}^{p+1}$, y $\boldsymbol\epsilon$ $N$- dimensiones del vector de reales-valores de variables aleatorias con $\mathbb{E}[\boldsymbol\epsilon] = \mathbf{0}_{N \times 1}$.
De la estimación OLS, sabemos que si $\mathbf{X}$ total (columna) de rango, $$\hat{\boldsymbol\beta}_{\mathbf{X}} = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}\text{.}$$ Supongamos que multiplica una columna de $\mathbf{X}$, decir $\mathbf{x}_k$ algunos $k \in \{1, 2, \dots, p+1\}$, por una constante $c \neq 0$. Esto sería equivalente a la matriz \begin{equation} \mathbf{X}\underbrace{\begin{bmatrix} 1 & \\ & 1 \\ & & \ddots \\ & & & 1 \\ & & & & c\\ & & & & & 1 \\ & & & & & &\ddots \\ & & & & & & & 1 \end{bmatrix}}_{\mathbf{S}} = \begin{bmatrix} \mathbf{x}_1 & \mathbf{x}_2 & \cdots & c\mathbf{x}_{k} & \cdots & \mathbf{x}_{p+1}\end{bmatrix} \equiv \tilde{\mathbf{X}} \end{equation} donde todas las demás entradas de la matriz $\mathbf{S}$ por encima de se $0$, e $c$ $k$th entrada de la diagonal de a $\mathbf{S}$. A continuación, $\tilde{\mathbf X}$ total (columna) rango así, y como resultado el estimador de MCO utilizando $\tilde{\mathbf X}$ como el nuevo diseño de la matriz es $$\hat{\boldsymbol\beta}_{\tilde{\mathbf{X}}} = \left(\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}}\right)^{-1}\tilde{\mathbf{X}}^{T}\mathbf{y}\text{.}$$ Después de algo de trabajo, uno puede mostrar que $$\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}} = \begin{bmatrix} \mathbf{x}_1^{T}\mathbf{x}_1 & \mathbf{x}_1^{T}\mathbf{x}_2 & \cdots & c\mathbf{x}_1^{T}\mathbf{x}_k & \cdots & \mathbf{x}_1^{T}\mathbf{x}_{p+1} \\ \mathbf{x}_2^{T}\mathbf{x}_1 & \mathbf{x}_2^{T}\mathbf{x}_2 & \cdots & c\mathbf{x}_2^{T}\mathbf{x}_k & \cdots & \mathbf{x}_2^{T}\mathbf{x}_{p+1} \\ \vdots & \vdots & \ddots & \vdots & \cdots & \vdots \\ c\mathbf{x}_k^{T}\mathbf{x}_1 & c\mathbf{x}_k^{T}\mathbf{x}_2 & \cdots & c^2\mathbf{x}_k^{T}\mathbf{x}_k & \cdots & c\mathbf{x}_k^{T}\mathbf{x}_{p+1} \\ \vdots & \vdots & \vdots & \vdots & \cdots & \vdots \\ \mathbf{x}_{p+1}^{T}\mathbf{x}_1 & \mathbf{x}_{p+1}^{T}\mathbf{x}_2 & \cdots & c\mathbf{x}_{p+1}^{T}\mathbf{x}_{p+1} & \cdots & \mathbf{x}_{p+1}^{T}\mathbf{x}_{p+1} \\ \end{bmatrix}$$ y $$\tilde{\mathbf{X}}^{T}\mathbf{y} = \begin{bmatrix} \mathbf{x}_1^{T}\mathbf{y} \\ \mathbf{x}_2^{T}\mathbf{y} \\ \vdots \\ c\mathbf{x}_k^{T}\mathbf{y} \\ \vdots \\ \mathbf{x}_{p+1}^{T}\mathbf{y} \end{bmatrix}$$ ¿Cómo puedo ir de aquí para mostrar la reclamación citada anteriormente (es decir, que $\hat{\boldsymbol\beta}_{\tilde{\mathbf{X}}} = \dfrac{1}{c}\hat{\boldsymbol\beta}_{\mathbf{X}}$)? No es claro para mí cómo calcular $(\tilde{\mathbf{X}}^{T}\tilde{\mathbf{X}})^{-1}$.