6 votos

Correspondencia uno a uno entre los parámetros de penalización de formulaciones equivalentes de métodos de regresión penalizados

Ridge, LAZO y Red Elástica son los tres métodos populares de sancionar las regresiones. Todos estos tienen más de una de las formulaciones. Por ejemplo, dos de las formulaciones para Ridge son:

  1. minimizar $\lVert Y - X \beta \rVert _ 2 ^ 2 + \lambda \lVert \beta \rVert _ 2 ^ 2$ con respecto al $\beta$
  2. minimizar $\lVert Y - X \beta \rVert _ 2 ^ 2$ con respecto al $\beta$ sujeto a $\lVert \beta \rVert _ 2 ^ 2 \leq t$

Estoy siguiendo Los Elementos de Aprendizaje Estadístico, y allí se afirma que hay una correspondencia uno a uno entre $\lambda$ e t (consulte la Pg. 63). Aunque no de manera explícita (o me he perdido de alguna manera), la misma reivindicación implícita para los otros dos métodos también.

I (intuitivamente) comprender la equivalencia entre las dos formulaciones. Si queremos reducir las estimaciones más, el $L_2$ será menor, y vamos a utilizar un menor valor de t en la $2 ^ {nd}$ de la formulación. Y, en el $1 ^ {st}$ uno, vamos a utilizar un mayor valor de $\lambda$, ya que aumentará la función objetivo y, por tanto, para minimizar la pena, las estimaciones que se encogen. Por lo tanto, la afirmación es intuitiva, pero no sé la prueba de ello. Este hilo está muy relacionado con mi pregunta, pero no se derivan de la una correspondencia uno a uno.

Mi pregunta es cómo derivar que una correspondencia uno a uno. No puedo encontrar ninguna referencia para este. Derivación para cualquiera de estos tres será suficiente, como puedo hacer los otros dos a mí mismo.

En caso de que no importa, estoy interesado en esta relación, ya que tengo entendido que el R paquete glmnet considera que las sanciones en la forma de la $1 ^ {st}$ formulación única. Me gustaría imponer una sanción en forma de $2 ^ {nd}$ formulación, donde el valor de t es conocido para mí. Le pregunté a una pregunta relacionada con la de Stack Overflow.

Gracias.

Actualización

Tanto de las dos primeras respuestas tratar de demostrar que las dos formas son teóricamente equivalente. Entiendo que la equivalencia, y este hilo no es para eso. Estoy buscando específicamente para la correspondencia uno a uno para aplicarlo en un problema práctico donde tengo que usar el $2^{nd}$ formulario basado en el conocimiento de un dominio, con un valor especificado de t. Desde Ridge tiene una forma cerrada de la solución, teóricamente es posible resolver $\lambda$ de $\lVert(X^TX+\lambda I)^{-1}X^Ty\rVert=t$. Pero no me parece como una ecuación fácil de resolver, y no creo que esta ecuación se puede obtener para los otros dos métodos (el LAZO y Red Elástica), ya que no tienen una solución de forma cerrada. También, variando $\lambda$ a obtener muchas soluciones de la $1^{st}$ formulario y elegir la solución, tal que $L_2$ norma es la más cercana a t no parece ser un método ideal.

2voto

zqin Puntos 16

De acuerdo a Karush–Kuhn–Tucker condiciones y este post, el primer problema es equivalente al segundo problema, y $t = ||\hat\beta||^2$, $\hat\beta = (X^TX+\lambda I)^{-1}X^TY$, lo $t=Y^TX(X^TX+\lambda I)^{-2}X^TY$. Entonces solo tenemos que demostrar $t$ es un uno-a-uno de la función de $\lambda$.

Supongamos $T_1=X^TX+\lambda_1 I$, $T_2=X^TX+\lambda_2 I=T_1+\lambda_0I$ donde $\lambda_0 = \lambda_2-\lambda_1>0$, a continuación, $t(\lambda_2)-t(\lambda_1)=Y^TX(T_2^{-2}-T_1^{-2})X^TY$. Tenga en cuenta que $T_1$ e $T_2$ son positiva definida.

$T_2^{-2}-T_1^{-2}=T_2^{-2}(I-(T_1+\lambda_0I)^2T_1^{-2})=-T_2^{-2}(\lambda_0^2T_1^{-2}+2\lambda_0T_1^{-1})<0$. Por lo tanto $t(\lambda_2)<t(\lambda_1)$.

En realidad $t(\lambda)$ es monótona decreciente como has indicado.

2voto

polfosol Puntos 131

Suponer que la solución de su problema de $(1)$ es $\beta_\lambda^*$, donde el índice de $\lambda$ indica la dependencia de un determinado valor de $\lambda$.

El segundo problema se resuelve mediante la Langrange multiplicadores ($\mu$) y considerando las condiciones KKT, uno de los cuales es que $\mu(\Vert \beta\Vert^2 -t) =0$.

Set $t$ en el KTT condición anterior para el valor de la solución del problema $(1)$, es decir, $t = \Vert \beta_\lambda^*\Vert^2 $. A continuación, $\mu=\lambda$ e $\beta = \beta_\lambda^*$ satisfacer las condiciones KKT para $(2)$, es decir, los problemas que comparten la misma solución. Una vez más, la correspondencia entre las $\lambda^*$ e $t$ es $t = \Vert \beta_\lambda^*\Vert^2 $.

Me estoy dando sólo un condensada conclusión de la (gran) respuestas con las pruebas y explicaciones detalladas, que se puede encontrar aquí:

https://math.stackexchange.com/questions/335306/why-are-additional-constraint-and-penalty-term-equivalent-in-ridge-regression/336618#336618

Para responder a la pregunta acerca de la correspondencia entre $\mu$ e $t$ uno tiene que solucionar $t = \Vert \beta_\lambda^*\Vert^2 $.

Para ello, utiliza la solución del problema $(1)$:

$$ \beta_\lambda^* = (X^TX+\lambda I)^{-1}X^Ty. $$

En otras palabras, para un determinado $t$, uno tiene que encontrar una $\lambda$ tales que $$ [(X^TX+\lambda I)^{-1}X^Ty]^T (X^TX+\lambda I)^{-1}X^Ty = t $$

lo que establece la deseada correspondencia.

Tenga en cuenta que $t$ debe ser menos de $1$, ver aquí: Cómo encontrar los coeficientes de regresión $\beta$ en la cresta de la regresión? y aquí: Ridge regresión formulación como limitada frente penalizado: ¿ son equivalentes?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X