Un método general para crear soluciones dispersas es a través de la estimación MAP con una media normal cero a priori con una varianza desconocida.
$$p(x_i|\sigma_i^2)\sim N(0,\sigma_i^2)$$
Si a continuación se asigna un prior a $\sigma_i^2$ que tiene un modo en cero, entonces el modo posterior suele ser escaso. El $L_1$ surge de este enfoque tomando una distribución de mezcla exponencial.
$$p(\sigma_i^2|\lambda)\sim Expo\left(\frac{\lambda^2}{2}\right)$$
Entonces usted obtiene
$$\log[p(x_i|\lambda)]=-\lambda | x_i|+\log\left[\frac{\lambda}{2}\right]$$
Algunas alternativas son el doble pareto generalizado, el medio cauchy, el beta invertido. En cierto sentido son mejores que el lazo porque no reducen los valores grandes. De hecho, estoy bastante seguro de que el pareto doble generalizado puede escribirse como una mezcla de exponenciales. Es decir, escribimos $\lambda=\lambda_i$ y luego colocar una gamma previa $p(\lambda_i|\alpha\beta)$ . Lo conseguimos:
$$p(x_i|\alpha\beta)=\frac{\alpha}{2\beta}\left(1+\frac{|x_i|}{\beta}\right)^{-(\alpha+1)}$$
Tenga en cuenta que he incluido constantes de normalización, ya que ayudan a elegir buenos parámetros globales. Ahora, si aplicamos la restricción de rango, tenemos un problema más complicado, ya que tenemos que renormalizar sobre el simplex.
Otra característica genérica de las penalizaciones que inducen a la dispersión es que no son diferenciables en cero. Normalmente esto se debe a que los límites izquierdo y derecho son de signo contrario.
Esto se basa en el brillante trabajo de Nicolas Polson y James Scott sobre las representaciones de mezclas de varianzas que utilizan para desarrollar TIRLS - una extensión masiva de los mínimos cuadrados a una clase muy grande de combinaciones de pérdidas-penalidades.
Como alternativa se podría utilizar una prioridad definida en el simplex, pero que tenga las modas de las distribuciones marginales en cero. Un ejemplo es la distribución dirichlet con todos los parámetros entre 0 y 1. La penalización implícita sería así:
$$-\sum_{i=1}^{n-1}(a_i-1)\log(x_i) - (a_n-1)\log(1-\sum_{i=1}^{n-1}x_i)$$
Dónde $0<a_i<1$ . Sin embargo, habría que tener cuidado al optimizar numéricamente, ya que la penalización presenta singularidades. Un proceso de estimación más robusto es utilizar la media posterior. Aunque se pierda la dispersión exacta, se obtendrán muchas medias posteriores cercanas a cero.
0 votos
¿Podría explicar con más detalle lo de "entonces el $L_1$ no tiene ningún efecto (porque $||x||_1 = 1$ por decreto)"?
2 votos
@Cam.Davidson.Pilon: $x_i \geq 0$ y $\sum_i x_i = 1$ implica $\|x\|_1 = 1$ . :)
1 votos
Justin: Algunos detalles más podrían dar una mejor oportunidad a una respuesta útil. Aquí hay algunas preguntas que surgen inmediatamente al leer su descripción: ( 1 ) ¿Dónde está la "matriz estocástica" en todo esto? Sólo parece describir una situación que implica una matriz estocástica vector . Podrían ser sólo filas individuales de su matriz estocástica, o podría hacerse evidente otra estructura una vez que se tengan más detalles. ( 2 ) Usted quiere que el probabilidades que sean escasas, o quizás, escasas en alguna base apropiada? Si es lo primero, ¿por qué? (¿Se trata de un paseo aleatorio por un gráfico ponderado (disperso)?
0 votos
¿Por qué se exige que las entradas de $\vec x$ son positivo ? ¿Debería exigir, en cambio, que sean no negativo ? Además, ¿ha considerado la posibilidad de volver a parametrizar para eliminar la restricción (suponiendo que se refiera a la no negativa)? En otras palabras, intente $x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$
1 votos
@jrennie: Dado el contexto, por positivo Justin seguramente quiso decir no negativo .
0 votos
¡Oops, por alguna razón estas respuestas no aparecieron!
0 votos
Algunos detalles: (1) "Estocástico" para mí significa "suma de uno". Realmente quiero $\vec{x}$ y $\vec{b}$ para ser matrices, pero estas cosas se separan muy bien columna por columna. Disculpas por no haber aclarado esto. (2) Sí, me gustaría que las probabilidades sean dispersas en la base de identidad. Es para una aplicación particular en la geometría computacional para la que queremos resolver "regresión lineal donde la respuesta debe ser muy escasa en la identidad y la salida resultante debe sumar a uno".
0 votos
(Y sí, definitivamente queremos que no sean negativos, de hecho, ya que buscamos la dispersión, preferimos que haya tantos ceros como sea posible).
0 votos
Hola. ¿Hay alguna posibilidad de que puedas dar una referencia de dónde se definen cosas como "sparsity"? Estoy tratando de leer un libro de texto de aprendizaje automático para un curso de la escuela de posgrado (matemático aquí), y yo estaba teniendo un montón de problemas para encontrar una definición clara de "sparsity" y "sparsity-inducing", a pesar de todo el mundo utiliza la palabra. (Este es posiblemente el escenario más frustrante cuando se trata de leer jaja).
0 votos
¡Hola Tanner! Intenta echar un vistazo a esta página de la Wiki y leer sobre la norma L0 (que no es realmente una norma) y su relajación a L1: es.wikipedia.org/wiki/Regularización_estructurada_de_la_espacialidad Mi libro de texto también contiene una introducción a la regularización L1 :-) Busca información sobre sparsity en "compressive sensing" también, ¡para más términos de búsqueda! Envíame un correo electrónico si sigues atascado e intentaré encontrar más indicaciones para ti.