19 votos

Definición matemática/algorítmica de sobreajuste

¿Existe una definición matemática o algorítmica de sobreajuste?

A menudo, las definiciones proporcionadas son el clásico gráfico bidimensional de puntos con una línea que pasa por cada punto y la curva de pérdida de validación que sube de repente.

Pero, ¿existe una definición matemáticamente rigurosa?

23voto

netbook shopper Puntos 11

Sí, hay una definición (un poco más) rigurosa:

Dado un modelo con un conjunto de parámetros, se puede decir que el modelo se está sobreajustando a los datos si después de un cierto número de pasos de entrenamiento, el error de entrenamiento sigue disminuyendo mientras que el error fuera de muestra (de prueba) empieza a aumentar.

enter image description here En este ejemplo, el error fuera de la muestra (prueba/validación) primero disminuye en sincronía con el error del tren, y luego comienza a aumentar alrededor de la 90ª época, que es cuando comienza el sobreajuste

Otra forma de verlo es en términos de sesgo y varianza. El error fuera de la muestra de un modelo puede descomponerse en dos componentes:

  • Sesgo: Error debido a que el valor esperado del modelo estimado es diferente del valor esperado del modelo verdadero.
  • Desviación: Error debido a que el modelo es sensible a pequeñas fluctuaciones en el conjunto de datos.

El sobreajuste se produce cuando el sesgo es bajo, pero la varianza es alta. Para un conjunto de datos $X$ donde está el modelo verdadero (desconocido):

$ Y = f(X) + \epsilon $ - $\epsilon$ siendo el ruido irreducible en el conjunto de datos, con $E(\epsilon)=0$ y $Var(\epsilon) = \sigma_{\epsilon}$ ,

y el modelo estimado es:

$ \hat{Y} = \hat{f}(X)$ ,

entonces el error de prueba (para un punto de datos de prueba $x_t$ ) puede escribirse como:

$Err(x_t) = \sigma_{\epsilon} + Bias^2 + Variance$

con $Bias^2 = E[f(x_t)- \hat{f}(x_t)]^2$ y $Variance = E[\hat{f}(x_t)- E[\hat{f}(x_t)]]^2$

(Estrictamente hablando, esta descomposición se aplica en el caso de la regresión, pero una descomposición similar funciona para cualquier función de pérdida, es decir, también en el caso de la clasificación).

Ambas definiciones están vinculadas a la complejidad del modelo (medida en términos de número de parámetros en el modelo): Cuanto mayor sea la complejidad del modelo, mayor será la probabilidad de que se produzca un sobreajuste.

Ver capítulo 7 de Elementos de aprendizaje estadístico para un tratamiento matemático riguroso del tema.

enter image description here El equilibrio entre el sesgo y la varianza y la varianza (es decir, el sobreajuste) aumenta con la complejidad del modelo. Tomado del capítulo 7 de ESL

1 votos

¿Es posible que tanto el error de entrenamiento como el de prueba disminuyan, pero que el modelo siga sobreajustándose? En mi opinión, la divergencia entre el error de entrenamiento y el de prueba demuestra un exceso de adaptación, pero el exceso de adaptación no implica necesariamente la divergencia. Por ejemplo, una NN que aprende a distinguir a los delincuentes de los no delincuentes reconociendo el fondo blanco de las fotos de la cárcel está sobreajustada, pero los errores de entrenamiento y de prueba probablemente no son divergentes.

0 votos

@yters en ese caso, no creo que haya ningún tipo de forma de medir el sobreajuste que se produce. Todo lo que tienes es acceso a los datos de entrenamiento y de prueba, y si ambos conjuntos de datos muestran la misma característica que la NN aprovecha (fondo blanco), entonces eso es simplemente una característica válida que debe aprovechar, y no necesariamente el sobreajuste. Si no quisieras esa característica, tendrías que incluir variaciones de la misma en tus conjuntos de datos.

1 votos

@yters tu ejemplo es lo que yo considero "sobreajuste social": Matemáticamente, el modelo no está sobreajustado, pero hay algunas consideraciones sociales externas que hacen que el predictor no funcione bien. Un ejemplo más interesante son algunas competiciones de Kaggle y varios conjuntos de datos abiertos como Boston Housing, MNIST, etc... el modelo en sí mismo puede no estar sobreajustado (en términos de sesgo, varianza, etc...), pero hay mucho conocimiento sobre el problema en la comunidad en general (resultados de equipos y trabajos de investigación anteriores, kernels compartidos públicamente, etc...) que conducen al sobreajuste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X