¿Cómo diferenciar el producto de vectores (que da escalar) por un vector?

Question

¿Cómo diferenciar el producto de vectores (que da escalar) por un vector?

Preguntado el 27 de Mayo, 2016: Cuando se hizo la pregunta
581 visitas: Cuantas visitas ha tenido la pregunta
4 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de entender la derivación del método de mínimos cuadrados en términos de matrices: %#% $ de #% donde $$S(\beta) = y^Ty - 2 \beta X^Ty + \beta ^ T X^TX \beta$ es $\beta$ vector vertical, $m \times 1$ $X$ matriz y $n \times m$ $y$ vector. La pregunta es: ¿por qué $n \times 1$ $ he intentado derivar directamente a través de la definición de derivada: %#% $ de #% puede ser la última igualdad debe estar como en la siguiente línea, pero de todas formas no entiendo por qué $$\frac{d(2\beta X^Ty)}{d \beta} = 2X^Ty$$$\frac{d(2\beta X^Ty)}{d \beta} = \lim_{\Delta \beta \to 0} \frac{2\Delta\beta X^T y}{\Delta \beta} = \lim_{\Delta \beta \to 0} 2\Delta\beta X^T y \cdot \Delta \beta^{-1}$\Delta \beta^{-1}$? Vectores no tienen la forma inversa.

Las mismas preguntas que tengo para este quasion: $$2\Delta\beta \Delta \beta^{-1} X^T y $ $

Preguntado el 27 de Mayo, 2016 por Khasan Khafizov

Answer 1

4 Respuestas

Answer 2

13voto

Rob Dickerson Puntos 758

Hay dos enfoques cuando se toma el vector de derivados. En primer lugar, usted puede trabajar en las coordenadas. Esto siempre funciona, pero no es siempre agradable. En este caso $$S(\beta) = y^Ty - 2\sum_i \beta_i(X^Ty)_i + \sum_{i,j} \beta_i (X^TX)_{ij} \beta_j$$ así \begin{align*} \frac{\partial S}{\partial \beta_k} &= -2\sum_i \delta_{ik}(X^Ty)_i + \sum_{i,j} \delta_{ik}(X^TX)_{ij}\beta_j + \sum_{i,j} \beta_i(X^TX)_{ij}\delta_{jk}\\ &= -2(X^Ty)_ k + \sum_j (X^TX)_{kj}\beta_j + \sum_i \beta_i(X^TX)_{ik}\\ \frac{\partial S}{\partial \beta} &= -2X^Ty + 2(X^TX)\beta. \end{align*}

El segundo enfoque es trabajar con el diferencial de $dS(\beta)[\delta \beta]$ que calcula la derivada direccional $\frac{d}{dt}S(\beta + t\delta \beta)\Big\vert_{t\to 0}$; ya que la derivada direccional es lineal debe tener $$dS(\beta)[\delta \beta] = \left(\frac{\partial S}{\partial \beta}\right)^T\delta \beta$$ y por lo que a menudo puede recuperar un elegante, coordinar la libre expresión para la derivada del diferencial. Escribí algunas notas sobre esto aquí: https://www.dropbox.com/s/7bj966ifgqiljmt/calculus.pdf?dl=0

En este caso \begin{align*} dS(\beta)[\delta \beta] &= -2\delta \beta^TX^Ty + \delta \beta^TX^TX\beta + \beta^TX^TX\delta \beta\\ &= \left[-2y^TX +2\beta^TX^TX\right]\delta \beta. \end{align*}

Respondido el 27 de Mayo, 2016 por Rob Dickerson (758 Puntos )

Answer 3

6voto

user81560 Puntos 31

Sacado de mi blog. Esto es realmente un post en el corazón de la cuestión: derivar las ecuaciones normales.

Recordemos que el modelo lineal de regresión múltiple es la ecuación dada por $$Y_i = \beta_0 + \sum_{j=1}^{p}X_{ij}\beta_{j} + \epsilon_i\text{, } i = 1, 2, \dots, N\tag{1}$$ donde $\epsilon_i$ es una variable aleatoria para cada una de las $i$. Esto se puede escribir en forma matricial como así. \begin{equation*} \begin{array}{c@{}c@{}c@{}c@{}c@{}c} \begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_N \end{bmatrix} &{}={} &\begin{bmatrix} 1 & X_{11} & X_{12} & \cdots & X_{1p} \\ 1 & X_{21} & X_{22} & \cdots & X_{2p} \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ 1 & X_{N1} & X_{N2} & \cdots & X_{Np} \end{bmatrix} &\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} &{}+{} &\begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_N \end{bmatrix} \\ \\[0.1 ex] \mathbf{y} &{}={} &\mathbf{X} &\boldsymbol{\beta} &{}+{} &\boldsymbol{\epsilon}\text{.} \end{array} \end{ecuación*} Desde $\boldsymbol{\epsilon}$ es un vector de variables aleatorias, tenga en cuenta que nosotros llamamos $\boldsymbol{\epsilon}$ un vector aleatorio. Nuestro objetivo es obtener una estimación de $\boldsymbol{\beta}$. Una forma de hacerlo sería mediante la minimización de la suma de cuadrados residual, o $\text{RSS}$, definido por $$\text{RSS}(\boldsymbol{\beta}) = \sum_{i=1}^{N}\left(y_i - \sum_{j=0}^{p}x_{ij}\beta_{j}\right)^2$$ donde hemos definido $x_{i0} = 1$ todos los $i$. (Estos son sólo las entradas de la primera columna de la matriz $\mathbf{X}$.) Aviso aquí estamos usando letras minúsculas, para indicar que estamos trabajando con los valores observados a partir de los datos. Para minimizar esto, vamos a encontrar los valores críticos para los componentes de $\boldsymbol{\beta}$. Para $k = 0, 1, \dots, p$, aviso que $$\dfrac{\partial\text{RSS}}{\partial\beta_k}(\boldsymbol{\beta}) = \sum_{i=1}^{N}2\left(y_i - \sum_{j=0}^{p}x_{ij}\beta_{j}\right)(-x_{ik}) = -2\sum_{i=1}^{N}\left(y_ix_{ik} - \sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j}\right)\text{.}$$ La configuración de este igual a $0$, obtenemos lo que se conoce como las ecuaciones normales: $$\sum_{i=1}^{N}y_ix_{ik} = \sum_{i=1}^{N}\sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j}\text{.}\tag{2}$$ para $k = 0, 1, \dots, p$. Esto puede ser representado en notación matricial. Para $k = 0, 1, \dots, p$, $$\begin{align*} \sum_{i=1}^{N}y_ix_{ik} &= \begin{bmatrix} x_{1k} & x_{2k} & \cdots & x_{Nk} \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_{N} \end{bmatrix} = \mathbf{c}_{k+1}^{T}\mathbf{y} \end{align*}$$ donde $\mathbf{c}_\ell$ indica el $\ell$ésima columna de $\mathbf{X}$, $\ell = 1, \dots, p+1$. A continuación, podemos representar cada ecuación para $k = 0, 1, \dots, p$ como una matriz. Entonces $$\begin{bmatrix} \mathbf{c}_{1}^{T}\mathbf{y} \\ \mathbf{c}_{2}^{T}\mathbf{y} \\ \vdots \\ \mathbf{c}_{p+1}^{T}\mathbf{y} \end{bmatrix} = \begin{bmatrix} \mathbf{c}_{1}^{T} \\ \mathbf{c}_{2}^{T} \\ \vdots \\ \mathbf{c}_{p+1}^{T} \end{bmatrix}\mathbf{y} = \begin{bmatrix} \mathbf{c}_{1} & \mathbf{c}_{2} & \cdots & \mathbf{c}_{p+1} \end{bmatrix}^{T}\mathbf{y} = \mathbf{X}^{T}\mathbf{y}\text{.} $$ Para la justificación de "factoring" $\mathbf{y}$, consulte este enlace, en la página 2. Por el lado derecho de $(2)$ ($k = 0, 1, \dots, p$), $$\begin{align*} \sum_{i=1}^{N}\sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j} &= \sum_{j=0}^{p}\left(\sum_{i=1}^{N}x_{ij}x_{ik}\right)\beta_{j} \\ &= \sum_{j=0}^{p}\left(\sum_{i=1}^{N}x_{ik}x_{ij}\right)\beta_{j} \\ &=\sum_{j=0}^{p}\begin{bmatrix} x_{1k} & x_{2k} & \cdots & x_{Nk} \end{bmatrix} \begin{bmatrix} x_{1j} \\ x_{2j} \\ \vdots \\ x_{Nj} \end{bmatrix}\beta_j \\ &= \sum_{j=0}^{p}\mathbf{c}^{T}_{k+1}\mathbf{c}_{j+1}\beta_j \\ &= \mathbf{c}^{T}_{k+1}\sum_{j=0}^{p}\mathbf{c}_{j+1}\beta_j \\ &= \mathbf{c}^{T}_{k+1}\begin{bmatrix} \mathbf{c}_{1} & \mathbf{c}_2 & \cdots & \mathbf{c}_{p+1} \end{bmatrix}\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} \\ &= \mathbf{c}^{T}_{k+1}\mathbf{X}\boldsymbol{\beta}\text{.} \end{align*} $$ Llevando a cada caso en una sola matriz, tenemos $$\begin{bmatrix} \mathbf{c}^{T}_{1}\mathbf{X}\boldsymbol{\beta}\\ \mathbf{c}^{T}_{2}\mathbf{X}\boldsymbol{\beta}\\ \vdots \\ \mathbf{c}^{T}_{p+1}\mathbf{X}\boldsymbol{\beta}\\ \end{bmatrix} = \begin{bmatrix} \mathbf{c}^{T}_{1}\\ \mathbf{c}^{T}_{2}\\ \vdots \\ \mathbf{c}^{T}_{p+1}\\ \end{bmatrix}\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^{T}\mathbf{X}\boldsymbol{\beta}\text{.}$$ Por lo tanto, en la forma de la matriz, tenemos las ecuaciones normales como $$\mathbf{X}^{T}\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^{T}\mathbf{y}\text{.}\tag{3}$$

Respondido el 27 de Mayo, 2016 por user81560 (31 Puntos )

Answer 4

5voto

Luke Puntos 570

Qué se entiende por el vector derivada $\frac{dF}{d\beta}$ es el vector con componentes $\frac{dF}{d\beta_k}$. Entonces $$\frac{d}{d\beta_k}2\beta^T X^T y=\frac{d}{d\beta_k}\sum_{i,j}2\beta_i X_{ji} y_j=\sum_{i,j}2\delta_{ik} X_{ji} y_j=\sum_{j}2 X_{jk} y_j=(2X^T y)_k,$$ so indeed $\frac{d}{d\beta} (2\beta ^ X T ^ T, y) = 2 X ^ T $ y como se desee.

Respondido el 27 de Mayo, 2016 por Luke (570 Puntos )

Answer 5

4voto

Rodrigo de Azevedo Puntos 608

Definir campo escalar que $f : \mathbb{R}^n \to \mathbb{R}$

$$f (x) = a^T x = a_1 x_1 + a_2 x_2 + \cdots + a_n x_n$$

Que los derivados de parcial de $n$,

$$\partial_1 f (x) = a_1 \qquad \qquad \partial_2 f (x) = a_2 \qquad \dots \qquad\partial_n f (x) = a_n, \qquad$$

Por lo tanto, es el gradiente de $f$

$$\nabla f (x) = (a_1, a_2, \dots, a_n) = a$$

Respondido el 27 de Mayo, 2016 por Rodrigo de Azevedo (608 Puntos )

¿Cómo diferenciar el producto de vectores (que da escalar) por un vector?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo diferenciar el producto de vectores (que da escalar) por un vector?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: