9 votos

Regularización de ajuste de datos resumidos: la elección del parámetro

Después de mi pregunta anterior, la solución a la normal de las ecuaciones de regresión ridge está dada por:

$$\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty$$

Podría ofrecer alguna orientación para elegir el parámetro de regularización $\lambda$. Además, dado que la diagonal de $X^TX$ crece con el número de observaciones $m$, debe $\lambda$ ser también una función de $m$?

0voto

Mike Moore Puntos 641

Mi respuesta se basa en una buena revisión del problema por Anders Bjorkstorm regresión Ridge y los problemas inversos (recomiendo leer el artículo entero).

Parte 4 en esta revisión se dedica a la selección de un parámetro de $\lambda$ en la cresta de la regresión de la introducción de varios enfoques principales:

  1. ridge traza corresponde a un análisis gráfico de $\hat{\beta}_{i,\lambda}$ contra $\lambda$. Una típica trama se muestran inestables (para un verdadero enfermo-publicado problema, usted tiene que estar seguro de que usted necesita esta regularización, en cualquier caso, el comportamiento de los diferentes $\hat{\beta}_{i,\lambda}$ estimaciones para $\lambda$ cerca de cero, y casi constante desde algún punto (aproximadamente tenemos para detectar constante el comportamiento de la región de intersección para todos los parámetros). Sin embargo, la decisión acerca de dónde casi constante de la conducta se inicia, es algo subjetivo. Una buena noticia para este enfoque es que no se requieren para observar $X$$y$.
  2. $L$de la curva se traza la norma Euclídea del vector de parámetros estimados $|\hat{{\beta}}_\lambda|$ contra el residual de la norma $|y - X\hat{\beta}_\lambda|$. La forma es normalmente cerca de la carta $L$, por lo que existe una esquina que determina dónde parámetro óptimo pertenece (uno puede elegir el punto en $L$ curva donde el último se llega al máximo de curvatura, pero es mejor buscar Hansen's artículo para obtener más detalles).
  3. Para la validación cruzada en realidad un simple "leave-one-out" enfoque a menudo es elegido, en busca de $\lambda$ que maximiza (o minimiza) algunos precisión de los pronósticos en el criterio de que usted tiene una amplia gama de ellos, RMSE y MAPE son los dos, para empezar). Dificultades con 2. y 3. es que usted tiene que observar $X$ $y$ a aplicar en la práctica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X