8 votos

Mínimos cuadrados / suma residual de cuadrados en forma cerrada

Para hallar la suma residual de cuadrados (RSS) tenemos:

\begin{equation} \hat{Y} = X^T\hat{\beta} \end{equation}

donde el parámetro $\hat{\beta}$ se utilizará para estimar el valor de salida del vector de entrada $X^T$ comme $\hat{Y}$

\begin{equation} RSS(\beta) = \sum_{i=1}^n (y_i - x_i^T\beta)^2 \end{equation}

que en forma matricial sería

\begin{equation} RSS(\beta) = (y - X \beta)^T (y - X \beta) \end{equation}

diferenciando en función de $\beta$ obtenemos

\begin{equation} X^T(y - X\beta) = 0 \end{equation}

Mi pregunta es ¿cómo se hace el último paso? ¿Cómo obtuvo la derivada la última ecuación?

0 votos

Debería decir $\hat Y=X\hat\beta$ sin transposición. ${}\qquad{}$

0 votos

Esta ecuación aparece en la sección 3.2 de The Elements of Statistical Learning de Hastie, et al.

8voto

user87400 Puntos 120

Se trata de reglas estándar de multiplicación y diferenciación de matrices.

Tenemos

$$RSS(\beta) = (y - X \beta)^T (y - X \beta) = (y^T - \beta^TX^T)(y - X \beta) \\ =y^Ty-y^TX \beta-\beta^TX^Ty+\beta^TX^TX \beta$$

Entonces $$\frac {\partial RSS(\beta)}{\partial \beta} = -X^Ty-X^Ty+2X^TX\beta$$

el último término porque la matriz $X^TX$ es simétrica.

Así que $$\frac {\partial RSS(\beta)}{\partial \beta} =0 \Rightarrow -2X^Ty+2X^TX\beta =0 \Rightarrow -X^Ty+X^TX\beta = 0$$

$$\Rightarrow X^T(-y + X\beta) = 0\Rightarrow X^T(y-X\beta)=0$$

0 votos

Gracias por la derivación Esto podría ser útil para los novatos para derivada de una forma cuadrática

1 votos

Sí, podría ser útil.

6voto

John Wiseman Puntos 405

Según Randal J. Barnes, Diferenciación de matrices Prop. 7, si $\alpha=y^TAx$ donde $y$ y $x$ son vectores y $A$ es una matriz, tenemos $$\frac{\partial\alpha}{\partial x}=y^TA\text{ and }\frac{\partial\alpha}{\partial y}=x^TA^T$$ (la prueba es muy sencilla). También según su Proposición 8, si $\alpha=x^TAx$ entonces $$\frac{\partial \alpha}{\partial x}=x^T(A+A^T). $$ Por lo tanto, en la solución de Alecos anterior, preferiría escribir $$ \frac{\partial\mathrm{RSS}(\beta)}{\partial\beta}=-y^TX-y^TX+\beta^T(X^TX+XX^T) $$ donde el último término es $2\beta^TX^TX$ desde $X^TX$ es simétrica y, por tanto $X^TX=XX^T$ . Esto nos da una ecuación $$ (y^T+b^TX^T)X=0 $$ que proporciona el mismo resultado que en la respuesta de Alecos, si tomamos la transposición de ambos lados. Supongo que Alecos ha utilizado una definición de diferenciación matricial distinta de la de Barnes, pero el resultado final es, por supuesto, correcto.

0 votos

Acabo de ver esto. Útil. Efectivamente, a veces la diferenciación para matrices se define de forma diferente, pero lleva a los mismos resultados.

0 votos

+1 por incluir las propiedades de diferenciación de matrices y el enlace a una reseña.

0 votos

¿por qué $X^\text{T}X$ simétrico

1voto

user81560 Puntos 31

Esta es una repetición de mi respuesta aquí .

Sea $$\mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{bmatrix}$$ $$\mathbf{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{Np} \end{bmatrix}$$ y $$\beta = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_p \end{bmatrix}\text{.}$$ Entonces $\mathbf{X}\beta \in \mathbb{R}^N$ y $$\mathbf{X}\beta = \begin{bmatrix} \sum_{j=1}^{p}b_jx_{1j} \\ \sum_{j=1}^{p}b_jx_{2j} \\ \vdots \\ \sum_{j=1}^{p}b_jx_{Nj} \end{bmatrix} \implies \mathbf{y}-\mathbf{X}\beta=\begin{bmatrix} y_1 - \sum_{j=1}^{p}b_jx_{1j} \\ y_2 - \sum_{j=1}^{p}b_jx_{2j} \\ \vdots \\ y_N - \sum_{j=1}^{p}b_jx_{Nj} \end{bmatrix} \text{.}$$ Por lo tanto, $$(\mathbf{y}-\mathbf{X}\beta)^{T}(\mathbf{y}-\mathbf{X}\beta) = \|\mathbf{y}-\mathbf{X}\beta \|^2 = \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)^2\text{.} $$ Tenemos, para cada $k = 1, \dots, p$ , $$\dfrac{\partial \text{RSS}}{\partial b_k} = 2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)(-x_{ik}) = -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ik}\text{.}$$ Entonces $$\begin{align}\dfrac{\partial \text{RSS}}{\partial \beta} &= \begin{bmatrix} \dfrac{\partial \text{RSS}}{\partial b_1} \\ \dfrac{\partial \text{RSS}}{\partial b_2} \\ \vdots \\ \dfrac{\partial \text{RSS}}{\partial b_p} \end{bmatrix} \\ &= \begin{bmatrix} -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i1} \\ -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i2} \\ \vdots \\ -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ip} \end{bmatrix} \\ &= -2\begin{bmatrix} \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i1} \\ \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i2} \\ \vdots \\ \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ip} \end{bmatrix} \\ &= -2\mathbf{X}^{T}(\mathbf{y}-\mathbf{X}\beta)\text{.} \end{align}$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X