Estoy leyendo acerca de problemas de optimización que involucran normas mixtas. En particular, me estoy familiarizando con la norma $\ell_{2,1}$. Para una matriz $\mathbf{X}$, la norma $\ell_{\alpha,\beta}$, $\|\mathbf{A}\|_{\alpha,\beta}$ se define como,
$$\|\mathbf{A}\|_{\alpha,\beta} = \big( \sum_i \|\mathbf{A}_i\|_\alpha^\beta \big)^{\frac{1}{\beta}}$$
donde, $\mathbf{A}_i$ es la columna $i^{th}$ de $\mathbf{A}$. Según esta definición, $\mathbf{A}_{2,1}$ se puede escribir como,
$$\|\mathbf{A}\|_{2,1} = \sum_i \|\mathbf{A}_i\|_2$$
Ahora mi pregunta es, ¿por qué la norma $\ell_{2,1}$ no es suave? Hasta donde entiendo, la suavidad de una función está relacionada con la diferenciabilidad continua. ¿Hay alguna razón por la que incluso si la norma $\ell_2$ es diferenciable, la suma de normas $\ell_2$ no es diferenciable? Entonces en resumen, mi pregunta es, ¿por qué la norma $\ell_{2,1}$ no es suave? ¿Se puede probar que es una función no suave? Apreciaré su ayuda para comprender estos conceptos.