8 votos

¿Cómo diferenciar el producto de vectores (que da escalar) por un vector?

Estoy tratando de entender la derivación del método de mínimos cuadrados en términos de matrices: %#% $ de #% donde $$S(\beta) = y^Ty - 2 \beta X^Ty + \beta ^ T X^TX \beta$ es $\beta$ vector vertical, $m \times 1$ $X$ matriz y $n \times m$ $y$ vector. La pregunta es: ¿por qué $n \times 1$ $ he intentado derivar directamente a través de la definición de derivada: %#% $ de #% puede ser la última igualdad debe estar como en la siguiente línea, pero de todas formas no entiendo por qué $$\frac{d(2\beta X^Ty)}{d \beta} = 2X^Ty$$$\frac{d(2\beta X^Ty)}{d \beta} = \lim_{\Delta \beta \to 0} \frac{2\Delta\beta X^T y}{\Delta \beta} = \lim_{\Delta \beta \to 0} 2\Delta\beta X^T y \cdot \Delta \beta^{-1}$\Delta \beta^{-1}$? Vectores no tienen la forma inversa.

Las mismas preguntas que tengo para este quasion: $$2\Delta\beta \Delta \beta^{-1} X^T y $ $

13voto

Rob Dickerson Puntos 758

Hay dos enfoques cuando se toma el vector de derivados. En primer lugar, usted puede trabajar en las coordenadas. Esto siempre funciona, pero no es siempre agradable. En este caso $$S(\beta) = y^Ty - 2\sum_i \beta_i(X^Ty)_i + \sum_{i,j} \beta_i (X^TX)_{ij} \beta_j$$ así \begin{align*} \frac{\partial S}{\partial \beta_k} &= -2\sum_i \delta_{ik}(X^Ty)_i + \sum_{i,j} \delta_{ik}(X^TX)_{ij}\beta_j + \sum_{i,j} \beta_i(X^TX)_{ij}\delta_{jk}\\ &= -2(X^Ty)_ k + \sum_j (X^TX)_{kj}\beta_j + \sum_i \beta_i(X^TX)_{ik}\\ \frac{\partial S}{\partial \beta} &= -2X^Ty + 2(X^TX)\beta. \end{align*}

El segundo enfoque es trabajar con el diferencial de $dS(\beta)[\delta \beta]$ que calcula la derivada direccional $\frac{d}{dt}S(\beta + t\delta \beta)\Big\vert_{t\to 0}$; ya que la derivada direccional es lineal debe tener $$dS(\beta)[\delta \beta] = \left(\frac{\partial S}{\partial \beta}\right)^T\delta \beta$$ y por lo que a menudo puede recuperar un elegante, coordinar la libre expresión para la derivada del diferencial. Escribí algunas notas sobre esto aquí: https://www.dropbox.com/s/7bj966ifgqiljmt/calculus.pdf?dl=0

En este caso \begin{align*} dS(\beta)[\delta \beta] &= -2\delta \beta^TX^Ty + \delta \beta^TX^TX\beta + \beta^TX^TX\delta \beta\\ &= \left[-2y^TX +2\beta^TX^TX\right]\delta \beta. \end{align*}

6voto

user81560 Puntos 31

Sacado de mi blog. Esto es realmente un post en el corazón de la cuestión: derivar las ecuaciones normales.

Recordemos que el modelo lineal de regresión múltiple es la ecuación dada por $$Y_i = \beta_0 + \sum_{j=1}^{p}X_{ij}\beta_{j} + \epsilon_i\text{, } i = 1, 2, \dots, N\tag{1}$$ donde $\epsilon_i$ es una variable aleatoria para cada una de las $i$. Esto se puede escribir en forma matricial como así. \begin{equation*} \begin{array}{c@{}c@{}c@{}c@{}c@{}c} \begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_N \end{bmatrix} &{}={} &\begin{bmatrix} 1 & X_{11} & X_{12} & \cdots & X_{1p} \\ 1 & X_{21} & X_{22} & \cdots & X_{2p} \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ 1 & X_{N1} & X_{N2} & \cdots & X_{Np} \end{bmatrix} &\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} &{}+{} &\begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_N \end{bmatrix} \\ \\[0.1 ex] \mathbf{y} &{}={} &\mathbf{X} &\boldsymbol{\beta} &{}+{} &\boldsymbol{\epsilon}\text{.} \end{array} \end{ecuación*} Desde $\boldsymbol{\epsilon}$ es un vector de variables aleatorias, tenga en cuenta que nosotros llamamos $\boldsymbol{\epsilon}$ un vector aleatorio. Nuestro objetivo es obtener una estimación de $\boldsymbol{\beta}$. Una forma de hacerlo sería mediante la minimización de la suma de cuadrados residual, o $\text{RSS}$, definido por $$\text{RSS}(\boldsymbol{\beta}) = \sum_{i=1}^{N}\left(y_i - \sum_{j=0}^{p}x_{ij}\beta_{j}\right)^2$$ donde hemos definido $x_{i0} = 1$ todos los $i$. (Estos son sólo las entradas de la primera columna de la matriz $\mathbf{X}$.) Aviso aquí estamos usando letras minúsculas, para indicar que estamos trabajando con los valores observados a partir de los datos. Para minimizar esto, vamos a encontrar los valores críticos para los componentes de $\boldsymbol{\beta}$. Para $k = 0, 1, \dots, p$, aviso que $$\dfrac{\partial\text{RSS}}{\partial\beta_k}(\boldsymbol{\beta}) = \sum_{i=1}^{N}2\left(y_i - \sum_{j=0}^{p}x_{ij}\beta_{j}\right)(-x_{ik}) = -2\sum_{i=1}^{N}\left(y_ix_{ik} - \sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j}\right)\text{.}$$ La configuración de este igual a $0$, obtenemos lo que se conoce como las ecuaciones normales: $$\sum_{i=1}^{N}y_ix_{ik} = \sum_{i=1}^{N}\sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j}\text{.}\tag{2}$$ para $k = 0, 1, \dots, p$. Esto puede ser representado en notación matricial. Para $k = 0, 1, \dots, p$, $$\begin{align*} \sum_{i=1}^{N}y_ix_{ik} &= \begin{bmatrix} x_{1k} & x_{2k} & \cdots & x_{Nk} \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_{N} \end{bmatrix} = \mathbf{c}_{k+1}^{T}\mathbf{y} \end{align*}$$ donde $\mathbf{c}_\ell$ indica el $\ell$ésima columna de $\mathbf{X}$, $\ell = 1, \dots, p+1$. A continuación, podemos representar cada ecuación para $k = 0, 1, \dots, p$ como una matriz. Entonces $$\begin{bmatrix} \mathbf{c}_{1}^{T}\mathbf{y} \\ \mathbf{c}_{2}^{T}\mathbf{y} \\ \vdots \\ \mathbf{c}_{p+1}^{T}\mathbf{y} \end{bmatrix} = \begin{bmatrix} \mathbf{c}_{1}^{T} \\ \mathbf{c}_{2}^{T} \\ \vdots \\ \mathbf{c}_{p+1}^{T} \end{bmatrix}\mathbf{y} = \begin{bmatrix} \mathbf{c}_{1} & \mathbf{c}_{2} & \cdots & \mathbf{c}_{p+1} \end{bmatrix}^{T}\mathbf{y} = \mathbf{X}^{T}\mathbf{y}\text{.} $$ Para la justificación de "factoring" $\mathbf{y}$, consulte este enlace, en la página 2. Por el lado derecho de $(2)$ ($k = 0, 1, \dots, p$), $$\begin{align*} \sum_{i=1}^{N}\sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j} &= \sum_{j=0}^{p}\left(\sum_{i=1}^{N}x_{ij}x_{ik}\right)\beta_{j} \\ &= \sum_{j=0}^{p}\left(\sum_{i=1}^{N}x_{ik}x_{ij}\right)\beta_{j} \\ &=\sum_{j=0}^{p}\begin{bmatrix} x_{1k} & x_{2k} & \cdots & x_{Nk} \end{bmatrix} \begin{bmatrix} x_{1j} \\ x_{2j} \\ \vdots \\ x_{Nj} \end{bmatrix}\beta_j \\ &= \sum_{j=0}^{p}\mathbf{c}^{T}_{k+1}\mathbf{c}_{j+1}\beta_j \\ &= \mathbf{c}^{T}_{k+1}\sum_{j=0}^{p}\mathbf{c}_{j+1}\beta_j \\ &= \mathbf{c}^{T}_{k+1}\begin{bmatrix} \mathbf{c}_{1} & \mathbf{c}_2 & \cdots & \mathbf{c}_{p+1} \end{bmatrix}\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} \\ &= \mathbf{c}^{T}_{k+1}\mathbf{X}\boldsymbol{\beta}\text{.} \end{align*} $$ Llevando a cada caso en una sola matriz, tenemos $$\begin{bmatrix} \mathbf{c}^{T}_{1}\mathbf{X}\boldsymbol{\beta}\\ \mathbf{c}^{T}_{2}\mathbf{X}\boldsymbol{\beta}\\ \vdots \\ \mathbf{c}^{T}_{p+1}\mathbf{X}\boldsymbol{\beta}\\ \end{bmatrix} = \begin{bmatrix} \mathbf{c}^{T}_{1}\\ \mathbf{c}^{T}_{2}\\ \vdots \\ \mathbf{c}^{T}_{p+1}\\ \end{bmatrix}\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^{T}\mathbf{X}\boldsymbol{\beta}\text{.}$$ Por lo tanto, en la forma de la matriz, tenemos las ecuaciones normales como $$\mathbf{X}^{T}\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^{T}\mathbf{y}\text{.}\tag{3}$$

5voto

Luke Puntos 570

Qué se entiende por el vector derivada $\frac{dF}{d\beta}$ es el vector con componentes $\frac{dF}{d\beta_k}$. Entonces $$\frac{d}{d\beta_k}2\beta^T X^T y=\frac{d}{d\beta_k}\sum_{i,j}2\beta_i X_{ji} y_j=\sum_{i,j}2\delta_{ik} X_{ji} y_j=\sum_{j}2 X_{jk} y_j=(2X^T y)_k,$$ so indeed $\frac{d}{d\beta} (2\beta ^ X T ^ T, y) = 2 X ^ T $ y como se desee.

4voto

Definir campo escalar que $f : \mathbb{R}^n \to \mathbb{R}$

$$f (x) = a^T x = a_1 x_1 + a_2 x_2 + \cdots + a_n x_n$$

Que los derivados de parcial de $n$,

$$\partial_1 f (x) = a_1 \qquad \qquad \partial_2 f (x) = a_2 \qquad \dots \qquad\partial_n f (x) = a_n, \qquad$$

Por lo tanto, es el gradiente de $f$

$$\nabla f (x) = (a_1, a_2, \dots, a_n) = a$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X