32 votos

¿Pueden producirse simultáneamente un exceso y un defecto de adaptación?

Estoy tratando de entender mejor el overfitting y el underfitting. Consideremos un proceso de generación de datos (DGP) $$ Y=f(X)+\varepsilon $$ donde $f(\cdot)$ es una función determinista, $X$ son algunos regresores y $\varepsilon$ es un término de error aleatorio independiente de $X$ . Supongamos que tenemos un modelo $$ Y=g(Z)+u $$ donde $g(\cdot)$ es una función determinista, $Z$ son algunos regresores (que quizás se solapan en parte con $X$ pero no necesariamente igual a $X$ ) y $u$ es un término de error aleatorio independiente de $Z$ .

Sobreajuste

Je pense sobreajuste significa que el modelo estimado ha capturado algunos patrones de ruido debido a $\varepsilon$ además de los patrones deterministas debidos a $f(X)$ . Según James et al. "Una introducción al aprendizaje estadístico" (2013) p. 32,

El [sobreajuste] se produce porque nuestro procedimiento de aprendizaje estadístico se esfuerza demasiado por encontrar patrones en los datos de entrenamiento, y puede estar captando algunos patrones que sólo se deben al azar en lugar de por las verdaderas propiedades de la función desconocida $f$ .

Una toma similar está disponible en Wikipedia ,

En estadística, el sobreajuste es "la producción de un análisis que corresponde demasiado estrechamente o exactamente a un conjunto particular de datos, y por lo tanto puede fallar en el ajuste de datos adicionales o en la predicción de futuras observaciones de manera fiable". Un modelo sobreajustado es un modelo estadístico que contiene más parámetros de los que pueden justificar los datos. La esencia del sobreajuste es haber extraído, sin saberlo, parte de la variación residual (es decir, el ruido) como si esa variación representara la estructura subyacente del modelo.

Una diferencia entre la primera y la segunda cita parece ser que Wikipedia menciona cuántos parámetros están justificados por los datos, mientras que James et al. sólo consideran si $g(\cdot)$ está captando patrones debidos a $\varepsilon$ . Si seguimos a James et al. pero no a Wikipedia, la línea entre el exceso de ajuste y la ausencia del mismo parece un poco borrosa. Por lo general, incluso un $g(\cdot)$ capturará al menos algunos de los patrones aleatorios debido a $\varepsilon$ . Sin embargo, hacer $g(\cdot)$ más flexible podría, sin embargo, mejorar el rendimiento predictivo, ya que un $g(\cdot)$ será capaz de aproximarse $f(\cdot)$ mejor. Mientras la mejora en la aproximación $f(\cdot)$ supera el deterioro debido a la aproximación de patrones en $\varepsilon$ , vale la pena hacer $g(\cdot)$ más flexible.

Insuficiente

Je pense infradotado significa $g(Z)$ no es lo suficientemente flexible como para anidar $f(X)$ . La aproximación de $f(X)$ por $g(Z)$ sería imperfecta incluso si la precisión de la estimación de los parámetros del modelo fuera perfecta, y por tanto $g(Z)$ lo haría peor que $f(X)$ en la predicción $Y$ . Según Wikipedia ,

El infraajuste se produce cuando un modelo estadístico no puede captar adecuadamente la estructura subyacente de los datos. Un modelo infraajustado es un modelo en el que faltan algunos parámetros o términos que aparecerían en un modelo correctamente especificado. El infraajuste se produce, por ejemplo, cuando se ajusta un modelo lineal a datos no lineales.

Sobreajuste y subajuste simultáneos

Si seguimos la definición de sobreajuste de James et al., creo que el sobreajuste y el infraajuste pueden darse simultáneamente. Tomemos un ejemplo muy sencillo $g(Z)$ que no anida $f(X)$ y, obviamente, habrá un infraajuste. También habrá un poco de sobreajuste, porque con toda probabilidad, $g(Z)$ capturará al menos algunos de los patrones aleatorios debido a $\varepsilon$ .

Si seguimos la definición de sobreajuste de la Wikipedia, creo que el sobreajuste y el infraajuste pueden darse simultáneamente. Tomemos un ejemplo bastante rico $g(Z)$ que no anida $f(X)$ pero es lo suficientemente rico como para capturar muchos patrones aleatorios debido a $\varepsilon$ . Como $g(Z)$ no anida $f(X)$ habrá un ajuste insuficiente. Como $g(Z)$ capta muchos patrones aleatorios debido a $\varepsilon$ también habrá un exceso de ajuste; un $g(Z)$ que mejore el rendimiento predictivo al aprender menos patrones aleatorios.

Pregunta

¿Tiene sentido mi razonamiento? ¿Pueden producirse simultáneamente un sobreajuste y un infraajuste?

26voto

icelava Puntos 548

Su razonamiento tiene sentido para mí.

He aquí un ejemplo muy sencillo. Supongamos que $X$ consta de sólo dos columnas $x_1$ y $x_2$ y la verdadera DGP es

$$ y=\beta_1x_1+\beta_2x_2+\epsilon $$

con un valor no nulo $\beta_1$ y $\beta_2$ y el ruido $\epsilon$ .

A continuación, supongamos que $Z$ contiene columnas $x_1, x_1^2, x_1^3, \dots$ - pero no $x_2$ .

Si ahora encajamos $g(Z)$ (usando OLS, o cualquier otro enfoque), no podemos capturar el efecto de $x_2$ simplemente porque $x_2$ es desconocida para $g(Z)$ por lo que tendremos un infraajuste. Pero a la inversa, si se incluyen potencias espurias de $x_1$ (o cualquier otro predictor espurio) significa que podemos sobreajustar, y normalmente se hacerlo, a menos que lo regularicemos de alguna manera.

15voto

user164061 Puntos 281

Me gusta la idea de que un mal ajuste de la parte determinista y también un ajuste excesivo del ruido sean tanto un sobreajuste como un infraajuste, pero no es así como veo esas terminologías.

Considero la cuestión del sobreajuste frente al infraajuste en relación con el equilibrio entre el sesgo y la varianza. Por supuesto, puede haber situaciones con un sesgo y una varianza elevados, pero no se trata de expresar la situación de sobreajuste (varianza relativamente alta) frente a la de infraajuste (sesgo relativamente alto). Estos conceptos son relativos a un punto ideal. En la práctica, este punto ideal puede estar aún sesgado y también con varianza. Nunca estamos (completamente) libres de prejuicios y/o variantes.

(En realidad, yo diría que a menudo la respuesta más eficiente, con menor error, suele ser siempre con algún sesgo, y por tanto ambos infraajuste y sobreajuste)

Así que con el sobreajuste frente al infraajuste, siempre pienso en estos gráficos como

overfitting and underfitting in shrinking of sample mean

Así que, para mí, este exceso de adaptación frente a la falta de adaptación es algo relativo, relativo a algún parámetro y podemos representarlo como una función de ese parámetro.

Pero claro, este gráfico, en el que un lado (izquierda/derecha) está sobreajustado y el otro lado (derecha/izquierda) está infraajustado, puede también se consideran desplazados arriba y abajo en relación con la cuestión del error total (sesgo + varianza) que se ambos inceated or decreased.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X