41 votos

¿Por qué lambda "dentro de un error estándar desde el mínimo" es un valor recomendado para lambda en una regresión de red elástica?

Entiendo el papel que juega lambda en una regresión de red elástica. Y puedo entender por qué uno seleccionaría lambda.min, el valor de lambda que minimiza el error cruzado validado.

Mi pregunta es En qué parte de la literatura estadística se recomienda utilizar lambda.1se, es decir, el valor de lambda que minimiza el error del CV más un error estándar ? No encuentro una cita formal, ni siquiera una razón de por qué esto suele ser un buen valor. Entiendo que es una regularización más restrictiva, y reducirá los parámetros más hacia cero, pero no estoy siempre seguro de las condiciones bajo las cuales lambda.1se es una mejor opción sobre lambda.min. ¿Puede alguien ayudar a explicar?

42voto

trish Puntos 31

Friedman, Hastie y Tibshirani (2010) , citando Los elementos del aprendizaje estadístico escriba,

A menudo utilizamos la regla del "error estándar" a la hora de seleccionar el mejor modelo; esto reconoce el hecho de que las curvas de riesgo se estiman con error, por lo que peca de parsimonia.

La razón para utilizar un error estándar, en lugar de cualquier otra cantidad, parece ser porque es, bueno... estándar. Krstajic, et al (2014) escribe (el énfasis en negrita es mío):

Breiman et al. [25] han encontrado en el caso de la selección del tamaño óptimo del árbol para modelos de árboles de clasificación que el tamaño del árbol con el mínimo error de validación cruzada genera un modelo que generalmente se ajusta en exceso. Por lo tanto, en la Sección 3.4.3 de su libro, Breiman et al. [25] definen la regla de un error estándar (regla 1 SE) para elegir un tamaño de árbol óptimo, y la implementan a lo largo del libro. Para calcular el error estándar para la validación cruzada de un solo pliegue V, es necesario calcular la precisión para cada pliegue, y el error estándar se calcula a partir de las precisiones V de cada pliegue. Hastie et al. [4] definen la regla de 1 SE como la selección del modelo más parsimonioso cuyo error no está más de un error estándar por encima del error del mejor modelo, y sugieren en varios lugares el uso de la regla de 1 SE para la validación cruzada en general. El punto principal de la regla de 1 SE, con la que estamos de acuerdo, es elegir el modelo más simple cuya precisión sea comparable con el mejor modelo .

La sugerencia es que la elección de un error estándar es totalmente heurística, basada en el sentido de que un error estándar normalmente no es grande en relación con el rango de $\lambda$ valores.

11voto

Harald Puntos 24

El libro de Breiman et al. (citado en la cita de Krstajic de la otra respuesta) es la referencia más antigua que he encontrado para la regla de 1SE.

Esto es lo que dicen Breiman, Friedman, Stone y Olshen Árboles de clasificación y regresión (1984). En la sección 3.4.3 "derivan" esta norma.

Así que si necesitas una cita formal, esa parece ser la fuente original.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X