Con
$x = (x_1, x_2, \ldots, x_n)^T \tag 1$
y
$w = (w_1, w_2, \ldots, w_n)^T, \tag 2$
tenemos
$w^Tx = \displaystyle \sum_1^n w_i x_i; \tag 3$
observamos que
$\dfrac{\partial (w^Tx)}{\partial w_j} = x_j, \; 1 \le j \le n; \tag 4$
podemos escribir
$f(w) = \dfrac{1}{1 + e^{-w^Tx}} = (1 + e^{-w^Tx})^{-1}, \tag 5$
e implementar la regla de la cadena:
$\dfrac{\partial f(w)}{\partial w_j} = \dfrac{df(w)}{d(w^Tx)} \dfrac{\partial (w^Tx)}{\partial w_j}$
$= -(1 + e^{-w^Tx})^{-2} (-e^{-w^Tx}) \dfrac{\partial (w^Tx)}{\partial w_j} = (1 + e^{-w^Tx})^{-2} (e^{-w^Tx}) x_j = \dfrac{e^{-w^Tx} x_j}{(1 + e^{-w^Tx})^{-2}}. \tag 6$
Lo anterior muestra cómo se forman los derivados con respecto a la persona $w_i$; para tomar la derivada con respecto al $w$, pedimos una vez más en la regla de la cadena, pero en lugar de (6) tenemos
$\dfrac{\partial f(w)}{\partial w} = \dfrac{df(w)}{d(w^Tx)} \dfrac{\partial (w^Tx)}{\partial w} = (1 + e^{-w^Tx})^{-2} (e^{-w^Tx})\dfrac{\partial (w^Tx)}{\partial w}, \tag 7$
de donde se sigue para evaluar
$\dfrac{\partial (w^Tx)}{\partial w}; \tag 8$
pero esto es sencillo; se forma la diferencia
$(w + \Delta w)^T x - w^Tx = w^Tx + \Delta w^T x - w^Tx = \Delta w^T x, \tag 9$
de dónde
$(w + \Delta w)^T x - w^Tx - \Delta w^T x = 0, \tag{10}$
que los rendimientos de
$\Vert (w + \Delta w)^T x - w^Tx - \Delta w^T x \Vert = 0, \tag{11}$
independientemente de $\Vert \Delta w \Vert$; desde entonces se sigue que
$\dfrac{\Vert (w + \Delta w)^T x - w^Tx - \Delta w^T x \Vert}{\Vert \Delta w \Vert} = 0, \; \forall \Delta w \ne 0, \tag{12}$
podemos concluir que el lineal mapa
$\Delta w \to \Delta w^T x \tag{13}$
es el buscado derivados (8); se deduce entonces que (7) puede ser escrita
$\dfrac{\partial f(w)}{\partial w} = \dfrac{df(w)}{d(w^Tx)} \dfrac{\partial (w^Tx)}{\partial w} = (1 + e^{-w^Tx})^{-2} (e^{-w^Tx})(\cdot)^Tx; \tag{14}$
se nota que este es el lineal de asignación de $\Bbb R^n \to \Bbb R$ dada por
$\Delta w \mapsto \dfrac{ e^{-w^Tx}}{ (1 + e^{-w^Tx})^2} \Delta w^T x. \tag{15}$
Podemos convertir esto en algo más de forma normativa a través de la observación de que, desde el $\Delta w^T x \in \Bbb R$ es una cantidad escalar,
$\Delta w^T x = (\Delta w^T x)^T = x^T (\Delta w^T)^T = x^T \Delta w, \tag{16}$
y por lo tanto (15) se convierte en
$\Delta w \mapsto \dfrac{ e^{-w^Tx}}{ (1 + e^{-w^Tx})^2} x^T \Delta w, \tag{17}$
así que en última encontrar
$\dfrac{\partial f(w)}{\partial w} = \dfrac{df(w)}{d(w^Tx)} \dfrac{\partial (w^Tx)}{\partial w} = \dfrac{ e^{-w^Tx}}{ (1 + e^{-w^Tx})^2} x^T, \tag{18}$
es el derivado de la buscamos.