Estoy tratando de resumir lo que he entendido hasta ahora en penalizado análisis multivariante con alta dimensión de conjuntos de datos, y me siguen luchando por llegar a una definición adecuada de la soft-umbralización vs Lazo (o $L_1$) penalización.
Más precisamente, he utilizado escasa PLS de regresión para analizar 2-bloque de estructura de datos, incluyendo los datos genómicos (polimorfismos de nucleótido único, donde consideramos que la frecuencia del alelo menor en el rango {0,1,2}, considerado como una variable numérica) y continuo de fenotipos (puntuaciones de la cuantificación de los rasgos de la personalidad o de la asimetría cerebral, también se tratan como variables continuas). La idea era aislar el más influyente de los predictores (aquí, las variaciones genéticas en la secuencia de ADN) para explicar inter-individuales variaciones fenotípicas.
Inicialmente se utilizó el mixOmics paquete de R (antiguamente integrOmics
) que cuenta con penalizado PLS regresión y regularización de la CCA. Mirando el código R, se encontró que la "dispersión" de los predictores es simplemente inducida por la selección de la parte superior $k$ variables con altas cargas (en valor absoluto) en el $i$th componente, $i=1,\dots, k$ (el algoritmo es iterativo y calcular las cargas variables en $k$ componentes, la deflación de los predictores bloque en cada iteración, ver Escasa PLS: Selección de Variables a la hora de Integrar Ómicas de datos para un resumen).
Por el contrario, el spls paquete de co-escrito por S. Keleş (ver Dispersas por mínimos Cuadrados Parciales de Regresión para la Reducción de dimensiones y Variables de Selección, para obtener una descripción formal del planteamiento realizado por estos autores) implementa $L_1$-la penalización de la variable de penalización.
No es obvio para mí si hay un estricto "bijection", por así decirlo, entre iterativa función de selección basados en soft-umbral y $L_1$ regularización. Así que mi pregunta es: ¿hay algún matemático de conexión entre los dos?
Referencias
- Chun, H. y Kele s, S. (2010), Dispersas por mínimos cuadrados parciales para la reducción de dimensiones y variables de selección. Diario de la Sociedad Real de Estadística: Serie B, 72, 3-25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C., y Besse, P. (2008), Una Escasa PLS para la Selección de Variables a la hora de Integrar Ómicas de Datos. Aplicaciones estadísticas en la Genética y la Biología Molecular, 7, Artículo 35.