62 votos

¿Por qué el término de regularización se *añade* a la función de costes (en lugar de multiplicarse, etc.)?

Cuando se utiliza la regularización, a menudo se añade a la función de costes, como en la siguiente función de costes. $$ J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 $$ Esto tiene un sentido intuitivo para mí, ya que minimizar la función de coste significa minimizar el error (el término de la izquierda) y minimizar las magnitudes de los coeficientes (el término de la derecha) al mismo tiempo (o al menos equilibrar las dos minimizaciones).

Mi pregunta es por qué este término de regularización $\alpha\|\theta\|_2^2$ ¿se añade a la función de coste original y no se multiplica, o algo más que mantenga el espíritu de la motivación de la idea de regularización? ¿Es porque si simplemente añadimos el término es suficientemente simple y nos permite resolver esto analíticamente o hay alguna razón más profunda?

52voto

Jan Kukacka Puntos 1027

Tiene una buena intuición en el marco bayesiano. Consideremos que la función de coste regularizada $J$ tiene un papel similar al de la probabilidad de una configuración de parámetros $\theta$ dadas las observaciones $X, y$ . Aplicando el teorema de Bayes, obtenemos:

$$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$$

Tomando el logaritmo de la expresión nos da:

$$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$$

Ahora, digamos que $J(\theta)$ es el negativo 1 log-posterior, $-\log P(\theta|X,y)$ . Como el último término no depende de $\theta$ podemos omitirlo sin cambiar el mínimo. Quedan dos términos: 1) el término de probabilidad $\log P(X,y|\theta)$ en función de $X$ y $y$ y 2) el término anterior $ \log P(\theta)$ en función de $\theta$ solamente. Estos dos términos corresponden exactamente al término de datos y al término de regularización en su fórmula.

Puedes ir más allá y demostrar que la función de pérdida que has publicado se corresponde exactamente con el siguiente modelo:

$$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$$ $$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$$

donde los parámetros $\theta$ provienen de una distribución gaussiana de media cero y las observaciones $y$ tienen ruido gaussiano de media cero. Para más detalles, véase esta respuesta .


1 Negativo ya que quieres maximizar la probabilidad pero minimizar el coste.

40voto

Bauna Puntos 176

Jan y Cagdas dar una buena razón bayesiana, interpretando el regularizador como una prioridad. Aquí hay algunas no bayesianas:

  • Si su objetivo no regularizado es convexo, y añade un regularizador convexo, entonces su objetivo total seguirá siendo convexo. Esto no será cierto si lo multiplicas, o la mayoría de los otros métodos de combinación. La optimización convexa es muy, muy agradable en comparación con la optimización no convexa; si la formulación convexa funciona, es más agradable hacerlo.

  • A veces conduce a una forma cerrada muy simple, como menciones de wpof es el caso de la regresión de cresta.

  • Si piensas en el problema que "realmente" quieres resolver como un problema con una restricción dura $$ \min_{\theta : c(\theta) \le 0} J(\theta) ,$$ entonces su Dual de Lagrange es el problema $$ \min_\theta J(\theta) + \lambda c(\theta) .$$ Aunque no tienen para utilizar la dualidad de Lagrange, se entiende mucho sobre ella.

  • Como ogogmad mencionó El teorema del representante se aplica al caso de una penalización aditiva: si se quiere optimizar $f$ en todo un espacio de Hilbert con núcleo de reproducción de las funciones $\mathcal H$ entonces sabemos que la solución a la optimización sobre todo el espacio $$ \min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2 $$ se encuentra en un subespacio simple de dimensión finita para muchas pérdidas $J$ No sé si esto sería válido para un regularizador multiplicativo (aunque podría serlo). Esta es la base de las SVM de núcleo.

  • Si estás haciendo aprendizaje profundo o algo no convexo de todos modos: las pérdidas aditivas dan gradientes aditivos simples. Para el simple $L_2$ regularizador que diste, se vuelve muy simple disminución de peso . Pero incluso para un regularizador más complicado, digamos el WGAN-GP La pérdida de la $$ \sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer}, $$ es más fácil para la retropropagación calcular los gradientes cuando sólo tiene que considerar la suma de la pérdida y el complicado regularizador (considerando las cosas por separado), en lugar de tener que hacer la regla del producto.

  • Las pérdidas aditivas también son susceptibles de la popular ADMM y otros algoritmos basados en la "descomposición".

Ninguna de estas reglas es rígida y, de hecho, a veces un regularizador multiplicativo (o de otro tipo) puede funcionar mejor (como ogogmad señala ). (De hecho, el otro día presenté un papel sobre cómo algo que se podría interpretar como un regularizador multiplicativo lo hace mejor que el aditivo WGAN-GP anterior) Pero espero que esto ayude a explicar por qué los regularizadores aditivos son "el valor por defecto".

14voto

Quieres minimizar ambos términos en la función objetivo. Por lo tanto, hay que desacoplar los términos. Si se multiplican los términos se puede tener un término grande y el otro muy bajo. Entonces, sigues teniendo un valor bajo de la función objetivo, pero con un resultado indeseable.

Puede terminar con un modelo que tiene la mayoría de las variables cerca de cero sin poder de predicción.

enter image description here enter image description here

La función objetivo, que es la función que hay que minimizar, puede construirse como la suma de la función de coste y los términos de regularización.

En caso de que ambos sean independientes entre sí, se obtienen los valores ilustrados en la primera figura para el objetivo. En el caso de la suma, sólo hay un mínimo en (0, 0). En el caso del producto hay ambigüedad. Tienes toda una hipersuperficie igual a cero en (x=0 o y=0). Por lo tanto, el algoritmo de optimización puede terminar en cualquier lugar dependiendo de su inicialización. Y no puede decidir qué solución es mejor.

11voto

jkabrg Puntos 151

Puede probar otras operaciones binarias ( $\max,\min,\times$ ) y ver cómo se comparan.

El problema con $\min$ y $\times$ es que si el error es $0$ entonces la penalización regularizada acabará siendo $0$ . Esto permite que el modelo se sobreajuste.

El problema con $\max$ es que se acaba minimizando la más "dura" de las dos penalizaciones (error de entrenamiento o regularización) pero no la otra.

Por el contrario, $+$ es simple y funciona.

Te preguntarás por qué no otras operaciones binarias. No hay ningún argumento que pueda descartarlas, así que ¿por qué no?

8voto

Joeri Sebrechts Puntos 7483

Creo que tienes una pregunta válida. Para darte una respuesta adecuada tendrás que entender la naturaleza probabilística del problema.

En general, el problema que intentamos resolver es el siguiente: Dados los datos $D$ cuál es la distribución de hipótesis que explica estos datos. Cuando decimos hipótesis nos referimos a una PDF (al menos en este contexto). Y una distribución de hipótesis es una PDF de PDFs, es decir, $p(H | D)$ .

  1. $p(H | D)$ es una distribución sobre las hipótesis dadas $D$ . Si lo encontramos, podemos seleccionar una de estas hipótesis, por ejemplo la que tenga la mayor probabilidad, o podemos optar por hacer una media entre todas ellas. Un enfoque algo más sencillo es atacar el problema desde una dirección diferente utilizando el Teorema de Bayes.

    $$p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$$

  2. $p(D|H)$ es una de las hipótesis, también se llama probabilidad. $p(H)$ es la distribución de las hipótesis en nuestro universo de hipótesis antes de observar los datos. Después de observar los datos, actualizamos nuestras creencias.

  3. $p(D)$ es la media de las hipótesis antes de actualizar nuestras creencias.

Ahora bien, si tomamos el $-\log$ de ambos lados de la ecuación de Bayes obtenemos:

$$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$$

Generalmente $p(D)$ es difícil de calcular. Lo bueno es que no afecta al resultado. Es simplemente una constante de normalización.

Ahora, por ejemplo, si nuestro conjunto de hipótesis $p(D|H)$ es un grupo de gaussianos con $p(y|X,\theta)\sim N(\theta X,\sigma)$ donde no sabemos $\theta$ , pero asume saber $\sigma$ (o al menos asumir que es una constante), y además las propias hipótesis se distribuyen como una gaussiana con $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$ Entonces, al conectar todo lo anterior se ve algo así:

$$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$$

Ahora bien, si minimizamos esta expresión encontramos la hipótesis con mayor probabilidad. Las constantes no afectan a la minimización. Esta es la expresión de tu pregunta.

El hecho de que hayamos utilizado gaussianos no cambia el hecho de que el término de regularización sea adicional. Debe ser aditivo (en términos logarítmicos o multiplicativo en probabilidades), no hay otra opción. Lo que cambiará si usamos otras distribuciones son los componentes de la adición. La función de coste/pérdida que has proporcionado es óptima para un escenario específico de gaussianos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X