Considere la función de pérdida para la red evaluada en el i a observación
\begin{align} \mathcal{L}_i &= - \log\left(p_{y_i}\right), \end{align}
donde p_{y_i} es el vector de probabilidades normalizadas
\begin{align} p_{y_i} &= \frac{e^{f_{y_i}}}{\sum_{j=1}^K e^{f_j}}, \end{align}
f_j = \boldsymbol{w_j}^\top \boldsymbol{x_i} + b_j es la puntuación del i La observación correspondiente a la j de la clase, \boldsymbol{x_i} es el D -vector de columnas de dimensiones correspondientes a la i la observación, y \boldsymbol{w_j} es el vector de columnas correspondiente a las ponderaciones del j clase, para i=1,\cdots,N y j=1,\cdots,K .
Dada la derivada ascendente de la pérdida con respecto a las puntuaciones
\begin{align} \frac{\partial\mathcal{L}_i}{\partial f_k} &= p_k - \mathbb{1}\left(y_i=k\right) \end{align}
nos interesa derivar la derivada de la pérdida con respecto a los pesos y los sesgos. Comenzando con los pesos, podemos utilizar la regla de la cadena para llegar a la derivada deseada a través de las derivadas de la pérdida con respecto a las puntuaciones
\begin{align} \frac{\partial\mathcal{L}_i}{\partial \boldsymbol{w_j}} &= \sum_{k=1}^K \frac{\partial\mathcal{L}_i}{\partial f_k}\times\frac{\partial f_k}{\partial \boldsymbol{w_j}}\\ &= \frac{\partial\mathcal{L}_i}{\partial f_j}\times\frac{\partial f_j}{\partial \boldsymbol{w_j}}\\ &= \frac{\partial\mathcal{L}_i}{\partial f_j}\boldsymbol{x_i},\\ \end{align}
que se deduce de la derivada \frac{\partial f_k}{\partial \boldsymbol{w_j}} = \boldsymbol{x_j}\mathbb{1}\left(j=k\right) . El j es la única puntuación en la que el vector \boldsymbol{w_j} y, por lo tanto, las derivadas de las otras puntuaciones con respecto a \boldsymbol{w_j} son todos cero. La pérdida total \mathcal{L} se obtiene como la suma de las pérdidas en todos los N observaciones, y así
\begin{align*} \frac{\partial\mathcal{L}}{\partial \boldsymbol{w_j}} &= \sum_{i=1}^N \frac{\partial\mathcal{L}_i}{\partial f_j}\boldsymbol{x_i}. \end{align*}
Esta matriz de las derivadas de la pérdida con respecto a los pesos se obtiene simplemente como el producto matricial de la matriz de observación y la matriz de las derivadas de la pérdida con respecto a las puntuaciones \begin{align*} \begin{bmatrix} \sum_{i=1}^N \frac{\partial\mathcal{L}_i}{\partial f_1}\boldsymbol{x_i} & \cdots & \sum_{i=1}^N \frac{\partial\mathcal{L}_i}{\partial f_K}\boldsymbol{x_i}\\ \end{bmatrix} &= \begin{bmatrix} x_{11} & \cdots & x_{N1}\\ \vdots & \ddots & \vdots\\ x_{1D} & \cdots & x_{ND}\\ \end{bmatrix} \times \begin{bmatrix} \frac{\partial\mathcal{L}_1}{\partial f_1} & \cdots & \frac{\partial\mathcal{L}_1}{\partial f_K}\\ \vdots & \ddots & \vdots\\ \frac{\partial\mathcal{L}_N}{\partial f_1} & \cdots & \frac{\partial\mathcal{L}_N}{\partial f_K}\\ \end{bmatrix}\\ dW &= X^\top dF \end{align*}
La derivada de la pérdida con respecto a los sesgos se obtiene de forma similar. De nuevo utilizando la regla de la cadena,
\begin{align} \frac{\partial\mathcal{L}_i}{\partial b_j} &= \sum_{k=1}^K \frac{\partial\mathcal{L}_i}{\partial f_k}\times\frac{\partial f_k}{\partial b_j}\\ &= \frac{\partial\mathcal{L}_i}{\partial f_j}\times\frac{\partial f_j}{\partial b_j}\\ &= \frac{\partial\mathcal{L}_i}{\partial f_j}\times 1,\\ \end{align}
que se deduce de la derivada \frac{\partial f_k}{\partial \boldsymbol{b_j}} = \mathbb{1}\left(j=k\right) . La derivada de la pérdida en todas las observaciones se obtiene de nuevo mediante la suma
\begin{align*} \frac{\partial\mathcal{L}}{\partial b_j} &= \sum_{i=1}^N \frac{\partial\mathcal{L}_i}{\partial b_j}\\ &= \sum_{i=1}^N \frac{\partial\mathcal{L}_i}{\partial f_j}, \end{align*}
y por lo tanto
\begin{align} db &= \begin{bmatrix} \sum_{i=1}^N \frac{\partial\mathcal{L}_i}{\partial f_1} \\ \vdots\\ \sum_{i=1}^N \frac{\partial\mathcal{L}_i}{\partial f_K}\\ \end{bmatrix} = \begin{bmatrix} \sum_{i=1}^N dF_{i1} \\ \vdots\\ \sum_{i=1}^N dF_{iK}\\ \end{bmatrix}.\\ \end{align}