Un espacio común donde quasinorms se utilizan implica la reducción de dimensiones y dispersión.
Considere la posibilidad de Lazo, donde el estándar de MCO problema es aumentada por una penalización o coste de término:.
$$\min_{\beta}\dfrac{1}{N}\|Y-X\beta\|_2 \quad s.t. \|\beta\|_1\leq t$$
donde $\|\cdot\|_p$ es el estándar $L_p$ norma.
¿Por qué estamos haciendo esto de nuevo? Así, la "energía" de la señal que estamos tratando de estudio podría ser agrupados en un pequeño número de elementos de a $\beta = [\beta_0, \beta_1, ..., \beta_N]^T$, y sumando el costo indicado anteriormente plazo, penalizamos elementos de $\beta$ que son "menos importantes" para modelar el sistema. Estos "menos importantes" obtener ceros, y nos quedamos con una menor dimensión del sistema de donde empezamos.
Con la llegada de grandes volúmenes de datos y problemas de gran dimensión, ha habido un gran trabajo de investigación, lo que sugiere que el estándar $\|\cdot\|_1$ de reducción (el Lazo), o el estándar $\|\cdot\|_2$ de reducción (Ridge) podría no ser suficiente.
Es decir, podemos obtener mejores resultados mediante el uso de $L_p$ normas $0<p<1$. Aquí es donde quasinorms entran en juego, ya que estas normas ya no cumplen el triángulo de la desigualdad de la propiedad de $L_p$ normas $p\geq 1$
Buceo un poco más profundo, comparar dos diferentes vectores que representan la hipotética "verdadero" valor de $\beta$
$$\beta_1 = [1,1,1,1,1]$$
Aviso que este vector es no escasa. es decir, tenemos todos los elementos de a $\beta_1$. El $L_p$ normas $$\|\beta_1\|_2 \approx 2.23$$ $$\|\beta_1\|_1 = 5$$ $$\|\beta_1\|_{1/2} = 25$$
Ahora, compare esto con la siguiente "disperso" vector $$\beta_2 = [2.25,0,0,0,0]$$
Lo que nos da $$\|\beta_2\|_2 = 2.25$$ $$\|\beta_2\|_1 = 2.25$$ $$\|\beta_2\|_{1/2} = 2.25$$
Observe que $$\|\beta_1\|_2 \approx \|\beta_2\|_2$$ but that the differences of the norms really start to diverge as $p\rightarrow 0$
El uso de la inicial Lazo ejemplo, si queremos sub en $L_{1/2}$ $L_1$ en el costo término de la primera ecuación, vemos que una no escasa estimaciones de $\beta$ será muy penalizado. Por lo tanto, menor será el valor de $p$ más elementos de $\beta$ va a terminar siendo ceros.
Este es un ejemplo usando un pequeño de cinco dimensiones del objeto, pero los resultados a obtener más evidente a medida que la dimensión del espacio de trabajo en aumenta. Esta es la razón por la que es relevante para grandes volúmenes de datos y aprendizaje automático.