Hay una forma geométrica clara de ver por qué esto debe ser así, pero he olvidado algunos de los detalles. Algunos documentos de Daubeches, Dohono, etc. contienen estos detalles. Lamentablemente, también he olvidado estas referencias. Así que os daré la solución un poco perezosa (probablemente ya os habréis dado cuenta de que soy una persona muy perezosa), basada en operadores proximales y en la identidad de Mureau...
Para una función convexa $f: \mathbb R^n \rightarrow (-\infty, +\infty]$ definir su operador próximo
$$\text{prox}_{\lambda f}(a) := \underset{x \in \mathbb R^n}{\text{argmin }} \frac{1}{2}\|x-a\|_2^2 + \lambda f(x),$$
donde $\lambda > 0$ es un parámetro variable. Piensa en esto como una generalización de la noción de proyección sobre un conjunto convexo, donde el función de indicador se sustituye por una más general $f$ . Su problema consiste en calcular el operador proximal del $\ell_1$ -normas.
Definir el (Legendre) conjugado convexo de $f$ por
$$f^*(a) := \max_{x \in \mathbb R^n}\langle a, x\rangle - f(x).$$
Ahora, si $f := \|.\|_1$ y definimos el cubo $C^{(n)} := \{z \in \mathbb R^n|\|z\|_\infty \le \lambda\} = C^{(1)} \times \ldots \times C^{(1)}$ entonces $f^*\left(\frac{a}{\lambda}\right) = i_{C^{(n)}}(a)$ (ver por qué aquí ), y así $$\text{prox}_{\frac{1}{\lambda} f^*}\left(\frac{a}{\lambda}\right) = \ldots = P_{C^{(n)}}(a) = (P_{C^{(1)}}(a_1),\ldots,P_{C^{(1)}}(a_n)) = (\lambda \text{sgn}(a_1), \ldots,\lambda\text{sgn}(a_n)),$$ la proyección euclidiana de $a$ en el cubo $C$ . Así, por la identidad de Mureau, obtenemos $$ \text{prox}_{\lambda f}(a) = a - \text{prox}_{\frac{1}{\lambda} f^*}\left(\frac{a}{\lambda}\right) = a - P_{C^{(n)}}(a) = (a_1 - \lambda \text{sgn}(a_1), \ldots, a_n - \lambda \text{sgn}(a_n)) = (S_\lambda(a_1),\ldots, S_\lambda(a_n)),$$ donde $S_\lambda: t \mapsto \text{sgn}(t)(t - \lambda)_+$ El soft-thresholder .
N.B: $\text{sgn}(0) := 0$ . Además, tenga en cuenta que $t = |t|\text{sgn}(t)$ para todos $t \in \mathbb R$ .
Espero que esto ayude. Puedo proporcionar detalles más finos si es necesario.
0 votos
Creo que esto es lo que mejor responde a mi pregunta math.stackexchange.com/questions/471339/