Estoy repasando las conferencias sobre Machine Learning en Coursera.
Estoy luchando con lo siguiente. ¿Cómo puede la derivada parcial de
$$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}y^{i}\log(h_\theta(x^{i}))+(1-y^{i})\log(1-h_\theta(x^{i}))$$
donde $h_{\theta}(x)$ se define como sigue
$$h_{\theta}(x)=g(\theta^{T}x)$$ $$g(z)=\frac{1}{1+e^{-z}}$$
sea $$ \frac{\partial}{\partial\theta_{j}}J(\theta) =\sum_{i=1}^{m}(h_\theta(x^{i})-y^i)x_j^i$$
En otras palabras, ¿cómo podríamos calcular la derivada parcial con respecto a $\theta$ de la función de costes (los logaritmos son logaritmos naturales):
$$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}y^{i}\log(h_\theta(x^{i}))+(1-y^{i})\log(1-h_\theta(x^{i}))$$
0 votos
Creo que para resolver $\theta$ por gradiente será difícil (¿o imposible?). Porque es diferente a la clasificación lineal, no tendrá una forma cercana. Así que le sugiero que utilice otro método, por ejemplo Método de Newton . Por cierto, ¿te parece que $\theta$ ¿usando la forma anterior?
6 votos
Falta $\frac{1}{m}$ para la derivada del Coste