Antecedentes: Este es el costfunction de la Media de Regularización de la Multi Tarea de Aprendizaje. Este es un típico de regresión lineal modelo de aprendizaje, con la única diferencia de que hay varias instancias de capacitaciones al mismo tiempo. De modo que X tiene un adicional de 3ª dimensión y W y y una 2ª dimensión. X es la capacitación de los datos, Y es objetivos, W es pesos, m es el número de tareas (3ª dimensión), d es el número de cuenta, n es el número de ejemplos.
$X\in R^{n_i\times d \times m}$, $Y\in R^{n_i\times m }$, $W\in R^{d \times m}$
Pregunta: Dada la función de costo
$$ J =\min_W \frac{1}{2}||XW-Y||_F^2+\lambda\sum_{i=1}^m||W_i-\frac{1}{m}\sum_{s=1}^mW_s||^2_2 $$ ¿Qué es $\frac{\partial}{\partial W}J$?
Necesito calcular las derivadas parciales que se pueden utilizar con la línea de máxima pendiente de descenso algoritmo de optimización. Yo estaba pensando en el cálculo de la derivada de ambos con respecto a un solo peso, y de toda la matriz. Ver mi respuesta para mis cálculos hasta ahora.