Ridge, LAZO y Red Elástica son los tres métodos populares de sancionar las regresiones. Todos estos tienen más de una de las formulaciones. Por ejemplo, dos de las formulaciones para Ridge son:
- minimizar $\lVert Y - X \beta \rVert _ 2 ^ 2 + \lambda \lVert \beta \rVert _ 2 ^ 2$ con respecto al $\beta$
- minimizar $\lVert Y - X \beta \rVert _ 2 ^ 2$ con respecto al $\beta$ sujeto a $\lVert \beta \rVert _ 2 ^ 2 \leq t$
Estoy siguiendo Los Elementos de Aprendizaje Estadístico, y allí se afirma que hay una correspondencia uno a uno entre $\lambda$ e t
(consulte la Pg. 63). Aunque no de manera explícita (o me he perdido de alguna manera), la misma reivindicación implícita para los otros dos métodos también.
I (intuitivamente) comprender la equivalencia entre las dos formulaciones. Si queremos reducir las estimaciones más, el $L_2$ será menor, y vamos a utilizar un menor valor de t
en la $2 ^ {nd}$ de la formulación. Y, en el $1 ^ {st}$ uno, vamos a utilizar un mayor valor de $\lambda$, ya que aumentará la función objetivo y, por tanto, para minimizar la pena, las estimaciones que se encogen. Por lo tanto, la afirmación es intuitiva, pero no sé la prueba de ello. Este hilo está muy relacionado con mi pregunta, pero no se derivan de la una correspondencia uno a uno.
Mi pregunta es cómo derivar que una correspondencia uno a uno. No puedo encontrar ninguna referencia para este. Derivación para cualquiera de estos tres será suficiente, como puedo hacer los otros dos a mí mismo.
En caso de que no importa, estoy interesado en esta relación, ya que tengo entendido que el R
paquete glmnet considera que las sanciones en la forma de la $1 ^ {st}$ formulación única. Me gustaría imponer una sanción en forma de $2 ^ {nd}$ formulación, donde el valor de t
es conocido para mí. Le pregunté a una pregunta relacionada con la de Stack Overflow.
Gracias.
Actualización
Tanto de las dos primeras respuestas tratar de demostrar que las dos formas son teóricamente equivalente. Entiendo que la equivalencia, y este hilo no es para eso. Estoy buscando específicamente para la correspondencia uno a uno para aplicarlo en un problema práctico donde tengo que usar el $2^{nd}$ formulario basado en el conocimiento de un dominio, con un valor especificado de t
. Desde Ridge tiene una forma cerrada de la solución, teóricamente es posible resolver $\lambda$ de $\lVert(X^TX+\lambda I)^{-1}X^Ty\rVert=t$. Pero no me parece como una ecuación fácil de resolver, y no creo que esta ecuación se puede obtener para los otros dos métodos (el LAZO y Red Elástica), ya que no tienen una solución de forma cerrada. También, variando $\lambda$ a obtener muchas soluciones de la $1^{st}$ formulario y elegir la solución, tal que $L_2$ norma es la más cercana a t
no parece ser un método ideal.