8 votos

Mostrar que la optimización basada en la pérdida de Huber es equivalente a la basada en la norma $\ell_1$.

Estimados expertos en optimización,

Pido disculpas por preguntar probablemente la relación bien conocida entre la optimización basada en pérdida de Huber y la optimización basada en $\ell_1$. Sin embargo, estoy atascado con una prueba basada en 'principios básicos' (sin usar sobreenvoltura de Moreau, por ejemplo, aquí) para mostrar que son equivalentes.

Formulación del problema

El vector de observación es \begin{align*} \mathbf{y} &= \mathbf{A}\mathbf{x} + \mathbf{z} + \mathbf{\epsilon} \\ \begin{bmatrix} y_1 \\ \vdots \\ y_N \end{bmatrix} &= \begin{bmatrix} \mathbf{a}_1^T\mathbf{x} + z_1 + \epsilon_1 \\ \vdots \\ \mathbf{a}_N^T\mathbf{x} + z_N + \epsilon_N \end{bmatrix} \end{align*} donde

  • $\mathbf{A} = \begin{bmatrix} \mathbf{a}_1^T \\ \vdots \\ \mathbf{a}_N^T \end{bmatrix} \in \mathbb{R}^{N \times M}$ es una matriz conocida
  • $\mathbf{x} \in \mathbb{R}^{M \times 1}$ es un vector desconocido
  • $\mathbf{z} = \begin{bmatrix} z_1 \\ \vdots \\ z_N \end{bmatrix} \in \mathbb{R}^{N \times 1}$ también es desconocido pero escaso en la naturaleza, por ejemplo, se puede ver como un valor atípico
  • $\mathbf{\epsilon} \in \mathbb{R}^{N \times 1}$ es un ruido de medición con distribución gaussiana estándar con media cero y varianza unitaria normal, es decir, $\mathcal{N}(0,1)$.

Necesitamos demostrar que los dos problemas de optimización siguientes P$1$ y P$2$ son equivalentes.

P$1$: \begin{align*} \text{minimizar}_{\mathbf{x},\mathbf{z}} \quad & \lVert \mathbf{y} - \mathbf{A}\mathbf{x} - \mathbf{z} \rVert_2^2 + \lambda\lVert \mathbf{z} \rVert_1 \end{align*}

y

P$2$: \begin{align*} \text{minimizar}_{\mathbf{x}} \quad & \sum_{i=1}^{N} \mathcal{H} \left( y_i - \mathbf{a}_i^T\mathbf{x} \right), \end{align*} donde la función Huber $\mathcal{H}(u)$ se define como $$\mathcal{H}(u) = \begin{cases} |u|^2 & |u| \leq \frac{\lambda}{2} \\ \lambda |u| - \frac{\lambda^2}{4} & |u| > \frac{\lambda}{2} \end{cases} . $$


Mi intento parcial siguiendo la sugerencia en la respuesta a continuación

Intentamos convertir el problema P$1$ en una forma equivalente insertando la solución óptima de $\mathbf{z}$, es decir,

\begin{align*} \text{minimizar}_{\mathbf{x},\mathbf{z}} \quad & \lVert \mathbf{y} - \mathbf{A}\mathbf{x} - \mathbf{z} \rVert_2^2 + \lambda\lVert \mathbf{z} \rVert_1 \\ \equiv \\ \text{minimizar}_{\mathbf{x}} \left\{ \text{minimizar}_{\mathbf{z}} \right. \quad & \left. \lVert \mathbf{y} - \mathbf{A}\mathbf{x} - \mathbf{z} \rVert_2^2 + \lambda\lVert \mathbf{z} \rVert_1 \right\} \end{align*}

Derivando respecto a $\mathbf{z}$, \begin{align} 0 & \in \frac{\partial}{\partial \mathbf{z}} \left( \lVert \mathbf{y} - \mathbf{A}\mathbf{x} - \mathbf{z} \rVert_2^2 + \lambda\lVert \mathbf{z} \rVert_1 \right) \\ \Leftrightarrow & -2 \left( \mathbf{y} - \mathbf{A}\mathbf{x} - \mathbf{z} \right) + \lambda \partial \lVert \mathbf{z} \rVert_1 = 0 \\ \Leftrightarrow & \quad \left( \mathbf{y} - \mathbf{A}\mathbf{x} - \mathbf{z} \right) = \lambda \mathbf{v} \ . \end{align} para algún $ \mathbf{v} \in \partial \lVert \mathbf{z} \rVert_1 $ siguiendo apuntes de conferencia de Ryan Tibshirani (diapositivas #18-20), es decir, \begin{align} v_i \in \begin{cases} 1 & \text{si } z_i > 0 \\ -1 & \text{si } z_i < 0 \\ [-1,1] & \text{si } z_i = 0 \\ \end{cases}. \end{align} Entonces, la optimización de subgradiente dice: \begin{align} \begin{cases} \left( y_i - \mathbf{a}_i^T\mathbf{x} - z_i \right) = \lambda \ {\rm sign}\left(z_i\right) & \text{si } z_i \neq 0 \\ \left| y_i - \mathbf{a}_i^T\mathbf{x} - z_i\right| \leq \lambda & \text{si } z_i = 0 \end{cases} \end{align} Además, siguiendo notas de Ryan Tibsharani, la solución debería ser 'umbral suave' $$\mathbf{z} = S_{\lambda}\left( \mathbf{y} - \mathbf{A}\mathbf{x} \right),$$ donde \begin{align} S_{\lambda}\left( y_i - \mathbf{a}_i^T\mathbf{x} \right) = \begin{cases} \left( y_i - \mathbf{a}_i^T\mathbf{x} - \lambda \right) & \text{si } \left(y_i - \mathbf{a}_i^T\mathbf{x}\right) > \lambda \\ 0 & \text{si } -\lambda \leq \left(y_i - \mathbf{a}_i^T\mathbf{x}\right) \leq \lambda \\ \left( y_i - \mathbf{a}_i^T\mathbf{x} + \lambda \right) & \text{si } \left( y_i - \mathbf{a}_i^T\mathbf{x}\right) < -\lambda \\ \end{cases} . \end{align}

Ahora, pasamos al problema de optimización P$1$ de tal manera que \begin{align*} \text{minimizar}_{\mathbf{x}} \left\{ \text{minimizar}_{\mathbf{z}} \right. \quad & \left. \lVert \mathbf{y} - \mathbf{A}\mathbf{x} - \mathbf{z} \rVert_2^2 + \lambda\lVert \mathbf{z} \rVert_1 \right\} \\ \equiv \end{align*}

\begin{align*} \text{minimizar}_{\mathbf{x}} \quad & \lVert \mathbf{y} - \mathbf{A}\mathbf{x} - S_{\lambda}\left( \mathbf{y} - \mathbf{A}\mathbf{x} \right) \rVert_2^2 + \lambda\lVert S_{\lambda}\left( \mathbf{y} - \mathbf{A}\mathbf{x} \right) \rVert_1 \end{align*}

  • si $\lvert\left(y_i - \mathbf{a}_i^T\mathbf{x}\right)\rvert \leq \lambda$, entonces Así, $\left[S_{\lambda}\left( y_i - \mathbf{a}_i^T\mathbf{x} \right)\right] = 0$.

el objetivo sería $$\text{minimizar}_{\mathbf{x}} \sum_i \lvert y_i - \mathbf{a}_i^T\mathbf{x} \rvert^2, $$ que es fácil de ver que coincide con la función de penalización de Huber para esta condición. ¿De acuerdo?

  • si $\lvert\left(y_i - \mathbf{a}_i^T\mathbf{x}\right)\rvert \geq \lambda$, entonces $\left( y_i - \mathbf{a}_i^T\mathbf{x} \mp \lambda \right)$.

el objetivo sería $$\text{minimizar}_{\mathbf{x}} \sum_i \lambda^2 + \lambda \lvert \left( y_i - \mathbf{a}_i^T\mathbf{x} \mp \lambda \right) \rvert, $$ que casi coincide con la función de Huber, pero no estoy seguro de cómo interpretar la última parte, es decir, $\lvert \left( y_i - \mathbf{a}_i^T\mathbf{x} \mp \lambda \right) \rvert$. ¡Por favor sugiera!

4voto

flight Puntos 220

La idea es mucho más simple. Usa el hecho de que $$\min_{\mathbf{x}, \mathbf{z}} f(\mathbf{x}, \mathbf{z}) = \min_{\mathbf{x}} \left\{ \min_{\mathbf{z}} f(\mathbf{x}, \mathbf{z}) \right\}.$$ En tu caso, la solución del problema de minimización interno es exactamente la función de Huber.

0 votos

Sí, porque la penalización de Huber es la regularización de Moreau-Yosida de la norma $\ell_1$. Esa es una forma clara de verlo.

0 votos

Gracias por la sugerencia. He hecho otro intento. Sin embargo, siento que no estoy progresando aquí. Por favor, sugiere cómo avanzar.

0 votos

Simplemente trata $\mathbf{x}$ como una constante y resuelve con respecto a $\mathbf{z}$. Así es como se obtiene $\min_{\mathbf{z}} f(\mathbf{x}, \mathbf{z})$. En tu caso, este problema es separable, ya que la norma cuadrada $\ell_2$ y la norma $\ell_1$ son ambas una suma de componentes independientes de $\mathbf{z}$, por lo que simplemente puedes resolver un conjunto de problemas unidimensionales de la forma $\min_{z_i} \{ (z_i - u_i)^2 + \lambda |z_i| \}$. Resulta que la solución de cada uno de estos problemas es exactamente $\mathcal{H}(u_i)$.

0voto

Steph Puntos 1

Considere el operador proximal de la norma $\ell_1$ $$ z^*(\mathbf{u}) = \mathrm{argmin}_\mathbf{z} \ \left[ \frac{1}{2} \| \mathbf{u}-\mathbf{z} \|^2_2 + \lambda \| \mathbf{z} \|_1 \right] = \mathrm{soft}(\mathbf{u};\lambda) $$

En su caso, (P1) es equivalente a minimizar \begin{eqnarray*} \phi(\mathbf{x}) &=& \lVert \mathbf{r} - \mathbf{r}^* \rVert_2^2 + \lambda\lVert \mathbf{r}^* \rVert_1 \\ &=& \sum_n |r_n-r^*_n|^2+\lambda |r^*_n| \end{eqnarray*} con el vector residual $\mathbf{r}=\mathbf{A-yx}$ y su versión con umbral suave $\mathbf{r}^*= \mathrm{soft}(\mathbf{r};\lambda/2) $.

Además, tenga en cuenta que $$ r^*_n = \left\lbrace \begin{array}{ccc} r_n-\frac{\lambda}{2} & \text{si} & r_n>\lambda/2 \\ 0 & \text{si} & |r_n|<\lambda/2 \\ r_n+\frac{\lambda}{2} & \text{si} & r_n<-\lambda/2 \\ \end{array} \right. $$

\noindent En el caso $r_n>\lambda/2>0$, el sumando se escribe $\lambda^2/4+\lambda(r_n-\frac{\lambda}{2}) = \lambda r_n - \lambda^2/4 $ \ En el caso $|r_n|<\lambda/2$, el sumando se escribe $|r_n|^2 $ \ En el caso $r_n<-\lambda/2<0$, el sumando se escribe $\lambda^2/4 - \lambda(r_n+\frac{\lambda}{2}) = -\lambda r_n - \lambda^2/4 $

Finalmente, obtenemos el problema de minimización equivalente $$ \phi(\mathbf{x}) =\sum_n \mathcal{H}(r_n) $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X