Es claro que si el modelo está haciendo un par por ciento mejor en su
conjunto de entrenamiento de su conjunto de pruebas, que son de sobreajuste.
Es no verdadero. Su modelo ha aprendido en el entrenamiento y no ha "visto" antes de la prueba de conjunto, por lo que, obviamente, se deben de realizar de mejor manera en el conjunto de entrenamiento. El hecho de que se realiza (un poco) lo que es peor en el conjunto de prueba no significa que el modelo es el sobreajuste -- el "notable diferencia" puede sugerir.
Verificar la definición y la descripción de Wikipedia:
El sobreajuste se produce cuando un modelo estadístico que describe el error aleatorio o
ruido en lugar de la relación subyacente. El sobreajuste en general
se produce cuando un modelo es excesivamente compleja, como la de tener demasiados
parámetros relativos al número de observaciones. Un modelo que ha
sido overfit generalmente tienen baja el rendimiento predictivo, ya que
puede exagerar menores fluctuaciones en los datos.
La posibilidad de sobreajuste existe debido a que el criterio utilizado para
el modelo de formación no es el mismo que el criterio usado para juzgar la
la eficacia de un modelo. En particular, un modelo es típicamente formados por
la maximización de su rendimiento en un conjunto de datos de entrenamiento. Sin embargo, su
la eficacia se determina no por su rendimiento en los datos de entrenamiento, pero
por su capacidad para realizar bien en invisible de datos. El sobreajuste se produce cuando
un modelo que comienza a "memorizar" los datos de entrenamiento en lugar de "aprendizaje" para
generalizar a partir de tendencia.
En caso extremo, el sobreajuste del modelo se ajusta perfectamente a los datos de entrenamiento y mal a los datos de prueba. Sin embargo, en la mayoría de los ejemplos de la vida real es mucho más sutil y puede ser mucho más difícil para el juez de sobreajuste. Por último, puede suceder que los datos que usted tiene de su entrenamiento y de prueba son similares, por lo que el modelo parece funcionar bien en ambos conjuntos, pero cuando se utiliza en un conjunto de datos se realiza mal, porque de sobreajuste, como en Google flu trends ejemplo.
Imagine que usted tiene datos acerca de algunas de las $Y$ y su tendencia (graficado a continuación). Tiene datos sobre ella en el tiempo de 0 a 30, y decide usar 0-20 parte de los datos como un conjunto de entrenamiento y de 21 a 30 como un ejemplo. Se comporta muy bien en ambas muestras, es evidente que existe una tendencia lineal, sin embargo cuando se hacen predicciones sobre nuevos invisible antes de que los datos de veces mayor que 30, la buena forma que parece ser ilusoria.
Este es un resumen ejemplo, pero imagino que de la vida real-uno: tienes un modelo que predice las ventas de algún producto, funciona muy bien en verano, pero el otoño y el rendimiento disminuye. Su modelo es el sobreajuste de verano de datos -- tal vez es bueno solo para el verano de datos, tal vez se ha realizado buenas sólo en este año el verano de datos, tal vez este otoño es una de las demás y el modelo está muy bien...