Regularización de ajuste de datos resumidos: la elección del parámetro

Question

Regularización de ajuste de datos resumidos: la elección del parámetro

Preguntado el 12 de Abril, 2011: Cuando se hizo la pregunta
600 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Después de mi pregunta anterior, la solución a la normal de las ecuaciones de regresión ridge está dada por:

$$\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty$$

Podría ofrecer alguna orientación para elegir el parámetro de regularización $\lambda$. Además, dado que la diagonal de $X^TX$ crece con el número de observaciones $m$, debe $\lambda$ ser también una función de $m$?

Preguntado el 12 de Abril, 2011 por KP.

Answer 1

1 Respuestas

Answer 2

0voto

Mike Moore Puntos 641

Mi respuesta se basa en una buena revisión del problema por Anders Bjorkstorm regresión Ridge y los problemas inversos (recomiendo leer el artículo entero).

Parte 4 en esta revisión se dedica a la selección de un parámetro de $\lambda$ en la cresta de la regresión de la introducción de varios enfoques principales:

ridge traza corresponde a un análisis gráfico de $\hat{\beta}_{i,\lambda}$ contra $\lambda$. Una típica trama se muestran inestables (para un verdadero enfermo-publicado problema, usted tiene que estar seguro de que usted necesita esta regularización, en cualquier caso, el comportamiento de los diferentes $\hat{\beta}_{i,\lambda}$ estimaciones para $\lambda$ cerca de cero, y casi constante desde algún punto (aproximadamente tenemos para detectar constante el comportamiento de la región de intersección para todos los parámetros). Sin embargo, la decisión acerca de dónde casi constante de la conducta se inicia, es algo subjetivo. Una buena noticia para este enfoque es que no se requieren para observar $X$$y$.
$L$de la curva se traza la norma Euclídea del vector de parámetros estimados $|\hat{{\beta}}_\lambda|$ contra el residual de la norma $|y - X\hat{\beta}_\lambda|$. La forma es normalmente cerca de la carta $L$, por lo que existe una esquina que determina dónde parámetro óptimo pertenece (uno puede elegir el punto en $L$ curva donde el último se llega al máximo de curvatura, pero es mejor buscar Hansen's artículo para obtener más detalles).
Para la validación cruzada en realidad un simple "leave-one-out" enfoque a menudo es elegido, en busca de $\lambda$ que maximiza (o minimiza) algunos precisión de los pronósticos en el criterio de que usted tiene una amplia gama de ellos, RMSE y MAPE son los dos, para empezar). Dificultades con 2. y 3. es que usted tiene que observar $X$ $y$ a aplicar en la práctica.

Respondido el 12 de Abril, 2011 por Mike Moore (641 Puntos )

Regularización de ajuste de datos resumidos: la elección del parámetro

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Regularización de ajuste de datos resumidos: la elección del parámetro

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: