Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

10 votos

Diferenciación con respecto a una matriz (suma residual de los cuadrados)?

Nunca he oído hablar de diferenciar con respecto a una matriz. Deje que y sea un vector de N×1, X sea una matriz de N×p, y β sea un vector de p×1. Entonces la suma residual de los cuadrados se define por RSS(β)=(yXβ)T(yXβ). Los Elementos del Aprendizaje Estadístico, 2do ed., p. 45, indica que al diferenciar esto con respecto a β, obtenemos RSSβ=2XT(yXβ)2RSSβ βT=2XTX. Quiero decir, podría ver y y X como "constantes" y β como una variable, pero no me queda claro de dónde viene el 2 en RSSβ, y por qué usaríamos βT para el segundo parcial.

Cualquier libro de texto que cubra este tema sería apreciado también.

Nota lateral: esto no es tarea. Por favor, tenga en cuenta que me gradué solo con una licenciatura, por lo que puede asumir que he visto análisis real de pregrado, álgebra abstracta y álgebra lineal para mi formación en matemáticas puras.

10voto

user81560 Puntos 31

¡Guau, pregunté esto hace dos años!

Desde entonces, he aprendido lo que significa la notación para propósitos de cálculo rápido.

Sea y=[y1y2yN] X=[x11x12x1px21x22x2pxN1xN2xNp] y β=[b1b2bp]. Entonces XβRN y Xβ=[pj=1bjx1jpj=1bjx2jpj=1bjxNj]yXβ=[y1pj=1bjx1jy2pj=1bjx2jyNpj=1bjxNj]. Por lo tanto, (yXβ)T(yXβ)= Tenemos, para cada k = 1, \dots, p, \dfrac{\partial \text{RSS}}{\partial b_k} = 2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)(-x_{ik}) = -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ik}\text{.} Entonces \begin{align}\dfrac{\partial \text{RSS}}{\partial \beta} &= \begin{bmatrix} \dfrac{\partial \text{RSS}}{\partial b_1} \\ \dfrac{\partial \text{RSS}}{\partial b_2} \\ \vdots \\ \dfrac{\partial \text{RSS}}{\partial b_p} \end{bmatrix} \\ &= \begin{bmatrix} -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i1} \\ -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i2} \\ \vdots \\ -2\sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ip} \end{bmatrix} \\ &= -2\begin{bmatrix} \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i1} \\ \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i2} \\ \vdots \\ \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ip} \end{bmatrix} \\ &= -2\mathbf{X}^{T}(\mathbf{y}-\mathbf{X}\beta)\text{.} \end{align} Para la segunda parcial, como uno podría sospechar: \begin{align} \dfrac{\partial \text{RSS}}{\partial \beta^{T}} &= \begin{bmatrix} \dfrac{\partial \text{RSS}}{\partial b_1} & \dfrac{\partial \text{RSS}}{\partial b_2} & \cdots & \dfrac{\partial \text{RSS}}{\partial b_p} \end{bmatrix} \\ &= -2\begin{bmatrix} \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i1} & \cdots & \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ip} \end{bmatrix} \end{align} Ahora "apilamos" para tomar la parcial con respecto a \beta: \begin{align} \dfrac{\partial^2\text{RSS}}{\partial \beta\text{ }\partial\beta^{T}} &= \dfrac{\partial}{\partial\beta}\left(\dfrac{\partial \text{RSS}}{\partial \beta^{T}} \right) \\ &= \begin{bmatrix} -2\cdot \dfrac{\partial}{\partial b_1}\begin{bmatrix} \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i1} & \cdots & \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ip} \end{bmatrix} \\ \vdots \\ -2\cdot \dfrac{\partial}{\partial b_p}\begin{bmatrix} \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{i1} & \cdots & \sum_{i=1}^{N}\left(y_i-\sum_{j=1}^{p}b_jx_{ij}\right)x_{ip} \end{bmatrix} \end{bmatrix} \\ &= \begin{bmatrix} -2\begin{bmatrix} -\sum_{i=1}^{N}x_{i1}^2 & \cdots & -\sum_{i=1}^{N}x_{i1}x_{ip} \end{bmatrix} \\ \vdots \\ -2\begin{bmatrix} -\sum_{i=1}^{N}x_{i1}x_{ip} & \cdots & -\sum_{i=1}^{N}x_{ip}^2 \end{bmatrix} \end{bmatrix} \\ &= 2\mathbf{X}^{T}\mathbf{X}\text{.} \end{align}

8voto

Huey Puntos 125

Entonces, lo que tienes aquí es básicamente una funcional. Estás introduciendo una matriz (\mathbf{X}) y un par de vectores (\mathbf{y} y \beta), luego combinándolos de tal manera que la salida es solo un número. Entonces, lo que necesitamos aquí se llama una derivada funcional.

Sea \epsilon > 0 y \gamma un vector arbitrario de tamaño p \times 1, entonces \frac{\partial \text{RSS}}{\partial \beta} \equiv \lim_{\epsilon \to 0} \Big((\epsilon \gamma^T)^{-1}\big(\text{RSS}(\beta + \epsilon \gamma) - \text{RSS}(\beta)\big) \Big).

Estamos sumando un vector pequeño y arbitrario a \beta y luego viendo cómo eso cambia \text{RSS}. 'Dividimos' este vector arbitrario al final, y he utilizado la transpuesta aquí porque \beta y \gamma entran en la funcional original como multiplicación desde la derecha, así que al venir desde la izquierda usamos la transpuesta. Todo lo que queda es evaluar estas expresiones.

\text{RSS}(\beta+\epsilon\gamma) = \left(\mathbf{y}-\mathbf{X}(\beta+\epsilon\gamma)\right)^{T}\left(\mathbf{y}-\mathbf{X}(\beta+\epsilon\gamma)\right) = \left((\mathbf{y}-\mathbf{X}\beta)^{T}-(\mathbf{X}\epsilon\gamma)^T)\right)\left((\mathbf{y}-\mathbf{X}\beta)-\mathbf{X}\epsilon\gamma)\right) = (\mathbf{y}-\mathbf{X}\beta)^{T}(\mathbf{y}-\mathbf{X}\beta)-(\mathbf{y}-\mathbf{X}\beta)^{T}\mathbf{X}\epsilon\gamma-(\mathbf{X}\epsilon\gamma)^T(\mathbf{y}-\mathbf{X}\beta)+(\mathbf{X}\epsilon\gamma)^T\mathbf{X}\epsilon\gamma =\text{RSS}(\beta)- \epsilon \big((\mathbf{y}-\mathbf{X}\beta)^{T}\mathbf{X}\gamma+(\mathbf{X}\gamma)^T(\mathbf{y}-\mathbf{X}\beta)\big) + \epsilon^2 (\mathbf{X}\gamma)^T\mathbf{X}\gamma Entonces, \frac{\text{RSS}(\beta + \epsilon \gamma) - \text{RSS}(\beta)}{\epsilon \gamma^T} = \frac{-\big((\mathbf{y}-\mathbf{X}\beta)^{T}\mathbf{X}\gamma+(\mathbf{X}\gamma)^T(\mathbf{y}-\mathbf{X}\beta)\big) + \epsilon (\mathbf{X}\gamma)^T\mathbf{X}\gamma}{\gamma^T}.

El tercer término, entonces, no sobrevive en el límite y nos queda \frac{-\big((\gamma^T \mathbf{X}^T(\mathbf{y}-\mathbf{X}\beta))+(\gamma^T \mathbf{X}^T(\mathbf{y}-\mathbf{X}\beta))^T\big)}{\gamma^T}

Sin embargo, dado que ambos términos son solo matrices de tipo 1 \times 1, es decir, escalares, entonces el término y su transpuesta son iguales y nos queda \frac{\partial \text{RSS}}{\partial \beta} = -2 \mathbf{X}^T(\mathbf{y}-\mathbf{X}\beta)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X