12 votos

Pena máxima para la regresión de cresta

Consideremos un modelo de regresión

$$ y = X \beta + \varepsilon. $$

Utilizaré la regresión de cresta para estimar $\beta$ . La regresión Ridge contiene un parámetro de ajuste (la intensidad de la penalización) $\lambda$ . Si Me dieron una tabla de candidatos $\lambda$ valores, utilizaría la validación cruzada para seleccionar el óptimo $\lambda$ . Sin embargo, la red es no dado, por lo que necesito diseñarlo primero. Para ello tengo que elegir, entre otras cosas, un valor máximo $\lambda_{max}$ .

Pregunta: ¿Cómo puedo elegir con sensatez $\lambda_{max}$ en la regresión de cresta?

Debe haber un equilibrio entre

  • a $\lambda_{max}$ que es "demasiado grande", lo que lleva a desperdiciar cálculos al evaluar el rendimiento de (posiblemente muchos) modelos que son penalizados con demasiada dureza;
  • a $\lambda_{max}$ que es "demasiado pequeño", lo que hace que se pierda la oportunidad de penalizar más intensamente y obtener un mejor rendimiento.

(Obsérvese que la respuesta es sencilla en el caso de LASSO; allí se toma $\lambda_{max}$ de tal manera que todos los coeficientes se ajusten exactamente a cero para cualquier $\lambda \geq \lambda_{max}$ .)

0 votos

Una pregunta similar para LASSO es aquí Una pregunta un poco menos similar es aquí .

1 votos

He necesitado varias relecturas para entender exactamente lo que estabas preguntando. ¿No se puede tomar realmente el valor límite (ya que todos los coeficientes se pondrán a cero - se puede averiguar el ajuste con bastante facilidad)? Por supuesto, no se pueden utilizar puntos con distancias exponenciales, pero se podría (por ejemplo) utilizar puntos uniformes en la inversa de $\lambda$ o se puede utilizar una función cuantificada conveniente para colocar los puntos.

1 votos

@Glen, gracias. He reformulado la pregunta; espero que ahora esté más clara. En realidad, yo sería probablemente tome el valor límite si lo supiera. A esto se refiere la pregunta. ¿Tienes una idea de cuál es el valor límite? Pensé que era $+\infty$ ...

15voto

zowens Puntos 1417

El efecto de $\lambda$ en el estimador de regresión ridge es que "infla" los valores singulares $s_i$ de $X$ a través de términos como $(s^2_i+\lambda)/s_i$ . En concreto, si la SVD de la matriz de diseño es $X=USV^\top$ entonces $$\hat\beta_\mathrm{ridge} = V^\top \frac{S}{S^2+\lambda I} U y.$$ Esto se explica en múltiples ocasiones en nuestro sitio web, véase, por ejemplo, la exposición detallada de @whuber aquí: La prueba de la contracción de los coeficientes mediante la regresión de crestas a través de la "descomposición espectral" .

Esto sugiere que la selección de $\lambda$ mucho más grande que $s_\mathrm{max}^2$ encogerá todo muy fuertemente. Sospecho que $$\lambda=\|X\|_2^2=\sum s_i^2$$ será demasiado grande a efectos prácticos.

Suelo normalizar mis lambdas por la norma de Frobenius al cuadrado de $X$ y tener una cuadrícula de validación cruzada que va desde $0$ a $1$ (en una escala logarítmica).


Dicho esto, ningún valor de lambda puede considerarse realmente "máximo", a diferencia del caso del lazo. Imaginemos que los predictores son exactamente ortogonal a la respuesta, es decir, que la verdadera $\beta=0$ . Cualquier valor finito de $\lambda<\infty $ para cualquier valor finito del tamaño de la muestra $n$ dará lugar a $\hat \beta \ne 0$ y, por tanto, podría beneficiarse de una mayor contracción.

0 votos

Lo siento, he abandonado el tema por el momento y no he tenido tiempo suficiente para reflexionar en profundidad. Ahora le doy un upvote, pero me gustaría posponer la aceptación de la respuesta hasta que tenga tiempo para convencerme de que da lo que realmente necesito (tengo algunas reservas, pero actualmente no tengo tiempo para explorarlas en detalle). Espero que esto le parezca bien.

0 votos

No hay problema @RichardHardy.

0 votos

Qué hay de malo en compactar lambda al rango [0,1] como especifiqué en mi otra pregunta. Al final lo que importa es qué tipo de rejilla vas a colocar en este rango. He visto tres rejillas diferentes en internet: lineal, log y sqrt. Pero creo que debería estar relacionado con la geometría del problema en cuestión. De lo contrario, es muy ad-hoc.

2voto

kentaromiura Puntos 3361

Tal vez no responda del todo a su pregunta, pero en lugar de utilizar la regresión de cresta con una penalización fija de sus coeficientes, sería mejor utilizar la regresión de cresta adaptativa iterada, ya que esta última se aproxima a la regresión penalizada L0 (también conocida como el mejor subconjunto), donde la probabilidad logarítmica de un modelo GLM se penaliza en función de un múltiplo del número de coeficientes distintos de cero en el modelo - véase Frommlet & Noel 2016 . Esto tiene la ventaja de que entonces no hay que afinar el nivel de regularización lambda. En su lugar, puede establecer a priori el nivel de regularización $lambda$ para $lambda = 2$ si desea optimizar directamente el AIC (coincidiendo aproximadamente con la minimización del error de predicción) o para $lambda=log(n)$ para optimizar el BIC (lo que resulta en una selección de modelos asintóticamente óptima en términos de consistencia de la selección). Esto es lo que se hace en el l0ara Paquete R. Para mí, esto tiene más sentido que optimizar primero sus coeficientes bajo un objetivo (por ejemplo, la cresta), sólo para luego ajustar el nivel de regularización de ese modelo basado en algún otro criterio (por ejemplo, minimizar el error de predicción de validación cruzada, AIC o BIC). La otra ventaja de la regresión penalizada por L0 sobre la regresión por crestas o la regresión LASSO es que proporciona estimaciones insesgadas, por lo que se puede eliminar el equilibrio entre sesgo y varianza que afecta a la mayoría de los enfoques de regresión penalizada. Además, al igual que la cresta, también funciona para problemas de alta dimensión con $p>n$ .

Si quiere seguir con la regresión de cresta normal, entonces esta presentación ofrece un buen resumen de las estrategias que se pueden utilizar para ajustar el factor de penalización de la cresta. Los criterios de información como el AIC o el BIC también pueden utilizarse para ajustar la regularización, y cada uno de ellos se aproxima asintóticamente a una forma particular de validación cruzada:

  • El AIC minimiza aproximadamente el error de predicción y es asintóticamente equivalente a la validación cruzada leave-1-out (LOOCV) (Stone 1977); a su vez, la LOOCV se aproxima a la validación cruzada generalizada (GCV), pero la LOOCV debería ser siempre mejor que la GCV. Sin embargo, el AIC no es consistente, lo que significa que incluso con una gran cantidad de datos ( $n$ yendo al infinito) y si el modelo verdadero está entre los modelos candidatos, la probabilidad de seleccionar el modelo verdadero basándose en el criterio AIC no se acercaría a 1.
  • El BIC es una aproximación a la probabilidad marginal integrada $P(D|M,A) (D=Data, M=model, A=assumptions)$ lo que bajo un prior plano equivale a buscar el modelo que maximiza $P(M|D,A)$ . Su ventaja es que es consistente, lo que significa que con una cantidad muy grande de datos ( $n$ que va a infinito) y si el modelo verdadero está entre los modelos candidatos, la probabilidad de seleccionar el modelo verdadero basándose en el criterio BIC se acercaría a 1. Sin embargo, esto tendría un ligero coste para el rendimiento de la predicción si $n$ eran pequeños. El BIC también es equivalente a la validación cruzada leave-k-out (LKOCV) donde $k=n[11/(log(n)1)]$ con $n=$ tamaño de la muestra (Shao 1997). Sin embargo, hay muchas versiones diferentes del BIC, que se reducen a realizar diferentes aproximaciones de la probabilidad marginal o a asumir diferentes priorizaciones. Por ejemplo, en lugar de utilizar una prioridad uniforme de todos los modelos posibles como en el BIC original, el EBIC utiliza una prioridad uniforme de modelos de tamaño fijo ( Chen & Chen 2008 ) mientras que El BICq utiliza una distribución de Bernouilli que especifica la probabilidad a priori de cada parámetro a incluir .

Tenga en cuenta que el error LOOCV también puede ser calculado analíticamente de los residuos y el diagonal de la matriz del sombrero sin tener que realizar ninguna validación cruzada. Esto sería siempre una alternativa al AIC como aproximación asintótica del error LOOCV.

Referencias

Stone M. (1977) Una equivalencia asintótica de la elección del modelo por validación cruzada y el criterio de Akaike. Journal of the Royal Statistical Society Series B. 39, 44-7.

Shao J. (1997) Una teoría asintótica para la selección de modelos lineales. Statistica Sinica 7, 221-242.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X