Soy nuevo en ML. Se me informó que el L2-normalización de la cresta de la regresión no castigar al interceptar $\theta_{0}$. Como en la función de costo: $$ \nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} $$ El L2-normalización plazo $\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$ sólo las sumas de$j=1$$n$, no de$j=0$$n$. También he leído que:
en la mayoría de los casos (en todos los casos?), es mejor que no la regularización de la $\theta_{0}$, desde su raro para reducir el sobreajuste y se reduce el espacio de representable funciones
que viene de la última respuesta de user48956 de por Qué es un cero intercepto en el modelo de regresión lineal predice mejor que un modelo con una intercepción?
Estoy confundido acerca de cómo resolver la derivada de la función de costo, ya que: $$ \nabla_{\theta}J(\theta)=\frac{1}{2}(X\theta Y)^{T}(X\theta Y)+\lambda(\theta^{'})^{T}\theta^{'}, $$ donde $\theta^{'}=\left[ \begin{matrix} \theta_{1} \\ \theta_{2} \\ ...\\ \theta_{n} \end{de la matriz} \right]$ , $\theta=\left[ \begin{matrix} \theta_{0} \\ \theta_{1} \\ ...\\ \theta_{n} \end{de la matriz} \right]$ and $X=\left[ \begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{de la matriz} \right]$.
$\theta^{'}$ $\theta$ son diferentes. Por lo tanto no pueden ser mezclados desde mi punto de vista. Y la derivada es acerca de $\theta$,que contiene $\theta^{'}$. Después de googlear y ver las preguntas en este foro, aún no existe una manera para mí para conseguir la solución: $$ \theta=(X^TX+\lambda*I)^{-1}X^TY $$ ¿Alguien puede darme una pista? Gracias de antemano por su ayuda!
Sin embargo, creo que hay dos soluciones para este problema:
Primero de todo, no añadimos la 1 de la columna a $X$. Es decir, $X=\left[ \begin{matrix} X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{de la matriz} \right]$. That is to say we do not include the intercept at all in the model:$$ y=\theta_{1}X_{1}+\theta_{2}X_{2}+...+\theta_{n}X_{n}.$$ Creo que este es el método adoptado en el libro clásico de la Máquina de Aprendizaje en Acción por Peter Harrington que estoy leyendo actualmente. En su aplicación de la regresión ridge (P166 y P177 si usted también tiene el libro), todos los $X$ pasa a la cresta de la regresión no tienen todos los 1 de la columna. Así que no es interceptar instalados en todo.
En segundo lugar, la intersección también está siendo castigado en la realidad.
scikit de la regresión logística regulariza la intersección de forma predeterminada.
que una vez más se trata de la última respuesta de user48956 de por Qué es un cero intercepto en el modelo de regresión lineal predice mejor que un modelo con una intercepción?
Tanto de las dos soluciones rápidas conducen a la solución $$ \theta=(X^TX+\lambda*I)^{-1}X^TY. $$
Así que puede que el derivado de la L2-normalización de regresión ridge en realidad se resuelve o se acaba de resolver por soluciones rápidas?