En el aprendizaje automático, si el aproximador obtiene mejores resultados en los datos de entrenamiento y peores en los datos no vistos, entonces se ajusta en exceso (aprende puntos individuales de los datos); si lo hace terriblemente en el conjunto de datos de entrenamiento y la pérdida (MSE) es alta, significa que se ajusta en defecto.
Respuesta
¿Demasiados anuncios?La explicación simple es que usted parece estar tratando de predecir algún valor fuera de la muestra θ donde su estimador es ˆΘ y su pérdida será proporcional a (ˆΘ−θ)2 por lo que debe intentar minimizar E[(ˆΘ−θ)2]
Puedes reescribirlo como una suma: E[(ˆΘ−θ)2]=(E[ˆΘ−θ])2+E[(ˆΘ−E[ˆΘ])2] donde
- (E[ˆΘ−θ])2 es el cuadrado del sesgo esperado E[ˆΘ−θ]
- E[(ˆΘ−E[ˆΘ])2] es la varianza del estimador ˆΘ ignorando su precisión
Esto ilustra que no sólo debes intentar que tu estimador sea insesgado, ni sólo intentar minimizar la varianza de tu estimador, sino tener en cuenta ambas cosas al mismo tiempo. Su aprendizaje automático puede ajustarse para intentar esto mediante métodos como la validación cruzada en su conjunto de entrenamiento, y puede hacerlo sin considerar explícitamente el sesgo o la varianza, concentrándose directamente en E[(ˆΘ−θ)2] .
Como ejemplo de al mismo tiempo y que se trata de una cuestión más amplia que el sobreajuste o el infraajuste, si se intenta estimar la varianza de una variable aleatoria normalmente distribuida de media y varianza desconocidas, el estimador ˆσ2n−1=1n−1∑(xi−ˉx)2 tiene el mérito de ser insesgado y de tener la varianza más pequeña de todos los estimadores insesgados. Pero no minimiza E[(ˆσ2−σ2)2] según este criterio, el mejor estimador sería ˆσ2n+1=1n+1∑(xi−ˉx)2 aunque esté sesgado a la baja con E[ˆσ2n+1−σ2]=−2σ2n+1 . La mayoría de las cuestiones de aprendizaje automático son más complicadas que esto y, por tanto, no se prestan a un análisis sencillo, pero el concepto de encontrar el mejor modelo para minimizar el error fuera de la muestra es similar.