5 votos

¿Cómo seleccionar el parámetro de penalización tras la validación cruzada?

Digamos que tengo una matriz de características $X$ y un objetivo $y$ . Yo uso $k$ -validación cruzada para generar $k$ curvas de MSE fuera de muestra en función de un parámetro de penalización $\lambda$

$$MSE_i(\lambda) \quad (i=1,\dots,k)$$

Teniendo en cuenta estas curvas, ¿cómo debo elegir $\lambda$ ? Dos enfoques que he visto son

  1. Elija $\lambda=\lambda^*$ para minimizar el error cuadrático medio OOS.

  2. Elija el más grande $\lambda$ que esté dentro de un error estándar (tomado sobre todos los conjuntos de validación cruzada) del $\lambda$ que minimiza el error cuadrático medio OOS.

Pero parece que 1. es demasiado optimista (es probable que elija un modelo demasiado complejo) y 2. es demasiado pesimista (hay mucha correlación entre los valores de $MSE_i(\lambda)$ en diferentes puntos de la curva, por lo que 1 desviación estándar es demasiado).

¿Existe un término medio o un enfoque "óptimo"?

3voto

cbeleites Puntos 12461

Elija $=^$ para minimizar el error cuadrático medio OOS.

Esta estrategia supone que tiene suficientes casos de prueba independientes para que el error en su estimación de OOS sea insignificante.

Tienes razón: si el error en las mediciones de OOS no es despreciable, esto puede causar un sesgo hacia modelos demasiado complejos. La razón es que si se compara

  • muchos modelos de diversa complejidad
  • que tienen esencialmente el mismo rendimiento (es decir, no se puede distinguir su rendimiento con la configuración de validación dada, especialmente el número total de casos de prueba dado),
  • con una medida de rendimiento que está sujeta a una variación sustancial,

puede "rozar" la varianza: el mejor rendimiento observado puede deberse a una división (accidentalmente) favorable de los conjuntos de entrenamiento y prueba, en lugar de un rendimiento de generalización realmente mejor del modelo.

Véase por ejemplo Cawley, G. C. y Talbot, N. L. C.: On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation, Journal of Machine Learning Research, 11, 2079-2107 (2010).

La siguiente suposición más débil es que hay algún error no despreciable en la estimación del OOS, pero esencialmente las mediciones individuales del OOS (para cada modelo sustituto) todavía se comportan independientemente unas de otras:

Elija el más grande $$ that is within one standard error (taken over all cross validation sets) of the $$ que minimiza el error cuadrático medio OOS.

De lo contrario, hay que tener en cuenta que, en realidad, los modelos varían poco (sólo se intercambian unos pocos casos de entrenamiento entre dos de los modelos sustitutos) y sólo hay un número finito de casos de prueba distintos. Esto significa que el cálculo habitual del error estándar sobrestimaría las mediciones del número efectivo ( $n$ ) y así subestimar el error estándar.

En consecuencia, en esta situación debería seleccionar un modelo aún menos complejo.

2voto

Arsalan Puntos 16

Opción 1 (Elija $\lambda=\lambda^*$ para minimizar el error cuadrático medio del OOS) no debe ser demasiado optimista. El objetivo de la estimación del OOS error es seleccionar al $\lambda$ que mejor se ajusta a un conjunto independiente de datos de la misma distribución. A $\lambda$ que resulte en un modelo demasiado complejo, se ajustará en exceso al conjunto de entrenamiento y, por lo tanto, tendrá un mal rendimiento en el conjunto fuera de la muestra, por lo que no se seleccionará. Véase el capítulo 7 de Elementos de aprendizaje estadístico para una explicación más detallada de la validez de la selección de modelos basada en el error fuera de la muestra, y sobre las ventajas de la validación cruzada.

La filosofía de la opción 2 (elegir el mayor $\lambda$ que esté dentro de un error estándar (tomado sobre todos los conjuntos de validación cruzada) del $\lambda$ que minimice el error cuadrático medio OOS.) es seleccionar un modelo cuyo rendimiento no sea sustancialmente peor que la opción 1, pero con un resultado más sencillo (más parsimonioso). Básicamente, se está cambiando la precisión del ajuste por la interpretabilidad.

En resumen, la opción 1 es la mejor opción para el rendimiento predictivo de su modelo (y la cercanía a la verdadera distribución generadora de datos. La opción 2 (y otras modificaciones similares) podría conducir a un modelo más fácil de interpretar y, por tanto, más útil para describir la verdadera distribución de forma significativa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X