En el aprendizaje automático, si el aproximador obtiene mejores resultados en los datos de entrenamiento y peores en los datos no vistos, entonces se ajusta en exceso (aprende puntos individuales de los datos); si lo hace terriblemente en el conjunto de datos de entrenamiento y la pérdida (MSE) es alta, significa que se ajusta en defecto.
Respuesta
¿Demasiados anuncios?La explicación simple es que usted parece estar tratando de predecir algún valor fuera de la muestra $\theta$ donde su estimador es $\hat \Theta$ y su pérdida será proporcional a $(\hat \Theta - \theta)^2$ por lo que debe intentar minimizar $\mathbb E\left[\left(\hat \Theta - \theta\right)^2\right]$
Puedes reescribirlo como una suma: $\mathbb E\left[\left(\hat \Theta - \theta\right)^2\right] = \left(\mathbb E\left[\hat \Theta - \theta\right]\right)^2 +\mathbb E\left[\left(\hat \Theta - \mathbb E\left[\hat \Theta\right] \right)^2\right]$ donde
- $\left(\mathbb E\left[\hat \Theta - \theta\right]\right)^2$ es el cuadrado del sesgo esperado $E\left[\hat \Theta - \theta\right]$
- $\mathbb E\left[\left(\hat \Theta - \mathbb E\left[\hat \Theta\right] \right)^2\right]$ es la varianza del estimador $\hat \Theta$ ignorando su precisión
Esto ilustra que no sólo debes intentar que tu estimador sea insesgado, ni sólo intentar minimizar la varianza de tu estimador, sino tener en cuenta ambas cosas al mismo tiempo. Su aprendizaje automático puede ajustarse para intentar esto mediante métodos como la validación cruzada en su conjunto de entrenamiento, y puede hacerlo sin considerar explícitamente el sesgo o la varianza, concentrándose directamente en $\mathbb E\left[\left(\hat \Theta - \theta\right)^2\right]$ .
Como ejemplo de al mismo tiempo y que se trata de una cuestión más amplia que el sobreajuste o el infraajuste, si se intenta estimar la varianza de una variable aleatoria normalmente distribuida de media y varianza desconocidas, el estimador $\hat \sigma^2_{n-1} = \frac1{n-1} \sum (x_i-\bar x)^2$ tiene el mérito de ser insesgado y de tener la varianza más pequeña de todos los estimadores insesgados. Pero no minimiza $\mathbb E[(\hat \sigma^2 - \sigma^2)^2]$ según este criterio, el mejor estimador sería $\hat \sigma^2_{n+1} = \frac1{n+1} \sum (x_i-\bar x)^2$ aunque esté sesgado a la baja con $E[\hat \sigma^2_{n+1} - \sigma^2] = -\frac{2\sigma^2}{n+1}$ . La mayoría de las cuestiones de aprendizaje automático son más complicadas que esto y, por tanto, no se prestan a un análisis sencillo, pero el concepto de encontrar el mejor modelo para minimizar el error fuera de la muestra es similar.