15 votos

¿La normalización L2 de la regresión de cresta castiga la interceptación? Si no, ¿cómo resolver su derivada?

Soy nuevo en ML. Se me informó que el L2-normalización de la cresta de la regresión no castigar al interceptar $\theta_{0}$. Como en la función de costo: $$ \nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} $$ El L2-normalización plazo $\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$ sólo las sumas de$j=1$$n$, no de$j=0$$n$. También he leído que:

en la mayoría de los casos (en todos los casos?), es mejor que no la regularización de la $\theta_{0}$, desde su raro para reducir el sobreajuste y se reduce el espacio de representable funciones

que viene de la última respuesta de user48956 de por Qué es un cero intercepto en el modelo de regresión lineal predice mejor que un modelo con una intercepción?

Estoy confundido acerca de cómo resolver la derivada de la función de costo, ya que: $$ \nabla_{\theta}J(\theta)=\frac{1}{2}(X\theta Y)^{T}(X\theta Y)+\lambda(\theta^{'})^{T}\theta^{'}, $$ donde $\theta^{'}=\left[ \begin{matrix} \theta_{1} \\ \theta_{2} \\ ...\\ \theta_{n} \end{de la matriz} \right]$ , $\theta=\left[ \begin{matrix} \theta_{0} \\ \theta_{1} \\ ...\\ \theta_{n} \end{de la matriz} \right]$ and $X=\left[ \begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{de la matriz} \right]$.

$\theta^{'}$ $\theta$ son diferentes. Por lo tanto no pueden ser mezclados desde mi punto de vista. Y la derivada es acerca de $\theta$,que contiene $\theta^{'}$. Después de googlear y ver las preguntas en este foro, aún no existe una manera para mí para conseguir la solución: $$ \theta=(X^TX+\lambda*I)^{-1}X^TY $$ ¿Alguien puede darme una pista? Gracias de antemano por su ayuda!

Sin embargo, creo que hay dos soluciones para este problema:

Primero de todo, no añadimos la 1 de la columna a $X$. Es decir, $X=\left[ \begin{matrix} X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{de la matriz} \right]$. That is to say we do not include the intercept at all in the model:$$ y=\theta_{1}X_{1}+\theta_{2}X_{2}+...+\theta_{n}X_{n}.$$ Creo que este es el método adoptado en el libro clásico de la Máquina de Aprendizaje en Acción por Peter Harrington que estoy leyendo actualmente. En su aplicación de la regresión ridge (P166 y P177 si usted también tiene el libro), todos los $X$ pasa a la cresta de la regresión no tienen todos los 1 de la columna. Así que no es interceptar instalados en todo.

En segundo lugar, la intersección también está siendo castigado en la realidad.

scikit de la regresión logística regulariza la intersección de forma predeterminada.

que una vez más se trata de la última respuesta de user48956 de por Qué es un cero intercepto en el modelo de regresión lineal predice mejor que un modelo con una intercepción?

Tanto de las dos soluciones rápidas conducen a la solución $$ \theta=(X^TX+\lambda*I)^{-1}X^TY. $$

Así que puede que el derivado de la L2-normalización de regresión ridge en realidad se resuelve o se acaba de resolver por soluciones rápidas?

12voto

Naomi Puntos 68

Los Elementos de Aprendizaje Estadístico por Hastie et al. señala en P63 que:

la intersección $\theta_{0}$ que se ha dejado fuera del término de penalización

Además, se dice:

La cresta de soluciones que no equivariant bajo el escalamiento de las entradas, y por lo que normalmente se estandariza las entradas antes de que la solución de (3.41) (3.41 es la función de costo). Se puede demostrar (Ejercicio 3.5) que la solución para (3.41) puede ser separado en dos partes, después de reparametrization el uso de centrado entradas: cada una de las $X_{j}^{(i)}$ se sustituye por $X_{j}^{(i)}-\overline{x_{j}}.$ Estimamos $\theta_{0}$ por $\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$ El resto de los coeficientes de obtener la estimación de un ridge regresión sin interceptar, utilizando el centrado $X_{j}^{(i)}$. De ahora en adelante se supone que esta de centrado que se ha hecho, de modo que la entrada de la matriz $X$ $n$ (en lugar de $n + 1$) de las columnas.

Aunque me pregunto por qué Los Elementos de Aprendizaje Estadístico sugiere en primera instancia característica de normalización y, a continuación, sólo en función de centrado se lleva a cabo. Tal vez a estar de acuerdo con el Ejercicio 3.5 que sólo utiliza la función de centrado.

De todos modos, creo que el derecho a solicitar la z-score de la normalización de las funciones. Así que ahora a tratar de resolver la derivada de la función de costo de la regresión contraída a raíz de la sugerencia de la anterior comentarista de la ameba. Gracias a él o ella un montón!

En primer lugar, la función de costo: $$ \nabla_ { \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\frac{X_{1}^{(i)}-\overline{X_1}}{\sigma_1}\theta_1-\frac{X_{2}^{(i)}-\overline{X_2}}{\sigma_2}\theta_2-...-\frac{X_{n}^{(i)}-\overline{X_n}}{\sigma_n}\theta_n)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}, $$ donde $\overline{X_j}$ es la media de atributo $X_{j}$ $\sigma_j$ es la desviación estándar de $X_{j}$. Para hacerla más corta: $$ \nabla_ { \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} $$ Ahora, en primer lugar, calcular el valor de $\theta_0$ en la expresión anterior por la configuración de la derivada con respecto al $\theta_0$ igual a cero. Desde $\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$ no ha $\theta_{0}$, obtenemos: $$ \nabla_ { \theta_0}J(\theta)=-\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)=0 $$ Que es: $$ \sum_{i=1}^{m}(y_{i}-\theta_{0})-\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0 $$ Como $$\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0$$ (because $\overline{X_j}$ is the mean of attribute $X_{j}$ ), so now we have $$\sum_{i=1}^{m}(y_{i}-\theta_{0})=0,$$ obviamente: $$\theta_0=\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$$

Así que el intercepto de la función estandarizados de regresión ridge siempre es $\overline{y}$. Por lo tanto si primero centralizar $Y$ restando su media (get $(y_i)^{'}$ por ejemplo de datos de $i$), no se incluyen todos los 1 de la columna de $X$, y, a continuación, haga característica de normalización en $X$ (get $(X_j^{(i)})^{'}$ $X_{j}$ de los datos de ejemplo,$i$), la función de costo será simplemente $$ \nabla_ { \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}((y_{i})^{'}-\sum_{j=1}^{n}(X_j^{(i)})^{'}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} $$ Que es $$ \nabla_{\theta}J(\theta)=\frac{1}{2}(X^{'}\theta-Y^{'})^{T}(X^{'}\theta-Y^{'})+\lambda(\theta)^{T}\theta, $$ donde $\theta=\left[ \begin{matrix} \theta_1 \\ \theta_2 \\ ...\\ \theta_n \end{de la matriz} \right]$, $X^{'}$ does not have all 1 column and standardized of $X$, $Y^{'}$ is centered with respect to $$Y. Ahora $\theta$ (sin $\theta_0$) puede ser resuelto con: $$ \theta=((X^{'})^TX^{'}+\lambda*I)^{-1}(X^{'})^TY^{'} $$ Para la normalización de las características, el modelo lineal se $$ y=\overline{y}+\theta{_1}X_1^{'}+\theta{_2}X_2^{'}+...+\theta{_n}X_n^{'}---(1), $$ donde $$X_i^{'}=\frac{X_{i}-\overline{X_i}}{\sigma_i}---(2)$$ Si utilizamos (2) en (1) como se sugiere en la respuesta de la Plastia Grove. Así que el origen de los datos de entrada, el modelo lineal se
$$ y=\overline{y}+\frac{X_{1}-\overline{X_1}}{\sigma_1}\theta_1+\frac{X_{2}-\overline{X_2}}{\sigma_2}\theta_2+...+\frac{X_{n}-\overline{X_n}}{\sigma_n}\theta_n $$ Que es $$ y=\frac{\theta_1}{\sigma_1}X_1+\frac{\theta_2}{\sigma_2}X_2+...+\frac{\theta_n}{\sigma_n}X_n+\overline{y}-\frac{\overline{X_1}}{\sigma_1}\theta_1-\frac{\overline{X_2}}{\sigma_2}\theta_2-...-\frac{\overline{X_n}}{\sigma_n}\theta_n $$ Es por eso que después de resolver los coeficientes estandarizados de las características, el regreso de los coeficientes de origen de datos de entrada (no estandarizado), debemos regresar $\theta_i/\sigma_i$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X