El Óptimo del Cerebro Cirujano es un camino para podar la red neuronal entrenada. Nuestro objetivo es establecer uno de los pesos a cero (lo que llamamos $w_q$) para minimizar el incremento en el error.
Formular el problema que tenemos el siguiente problema de optimización.
$$\min _q \min _{\delta w} \left( \frac{1}{2} \delta w^{T}H\delta w \quad\text{s.t.}\quad e_q^{T}\delta w+w_q=0 \right)$$
donde $H$ es la matriz Hessiana (con todas las de segundo orden derivados) y $e_q$ es el vector unitario en peso el espacio correspondiente a (escalares) peso $w_q$.
Tenemos la solución del papel [0]:
$$\delta w = -\frac{w_q}{[H^{-1}]_{qq}}H^{-1}e_q$$
Traté de resolverlo utilizando multiplicadores de Lagrange, pero no podía derivar el denominador de $[H^{-1}]_{qq}$. Empecé con
$$L = \frac{1}{2} \delta w^{T}H\delta w + \lambda (e_q^{T}\delta w+w_q)$$
y tomando las derivadas con respecto a $\delta w$ e $\lambda$ hemos
$$H\delta w+\lambda e_q^{T}=0$$
$$e_q^{T}\delta w+w_q=0$$
a la derecha? Creo que debemos tomar la derivada con respecto al $q$, ¿verdad? Pero no sé cómo hacerlo.
[0] Babak Hassibi, David G. Stork, de Segundo orden derivados de la red de poda: Óptimo del Cerebro Cirujano", los Avances en el Procesamiento de Información Neuronal Sistemas (NIPS), 1992.