10 votos

¿Cuánto es demasiado sobreajustado?

Conceptualmente, ¿dónde se traza la línea entre un modelo de overfit y un modelo de ajuste adecuado?

Está claro que si su modelo tiene un rendimiento un dos por ciento mejor en su conjunto de entrenamiento que su conjunto de prueba, está sobreajustado. Pero digamos teóricamente, entrené un modelo en un conjunto de entrenamiento, luego lo validé en un conjunto de prueba, y descubrí que mi conjunto de entrenamiento tenía una precisión de 0.2% más alta que mi conjunto de prueba. ¿Esto es demasiado ajustado?

9voto

Dipstick Puntos 4869

Es claro que si el modelo está haciendo un par por ciento mejor en su conjunto de entrenamiento de su conjunto de pruebas, que son de sobreajuste.

Es no verdadero. Su modelo ha aprendido en el entrenamiento y no ha "visto" antes de la prueba de conjunto, por lo que, obviamente, se deben de realizar de mejor manera en el conjunto de entrenamiento. El hecho de que se realiza (un poco) lo que es peor en el conjunto de prueba no significa que el modelo es el sobreajuste -- el "notable diferencia" puede sugerir.

Verificar la definición y la descripción de Wikipedia:

El sobreajuste se produce cuando un modelo estadístico que describe el error aleatorio o ruido en lugar de la relación subyacente. El sobreajuste en general se produce cuando un modelo es excesivamente compleja, como la de tener demasiados parámetros relativos al número de observaciones. Un modelo que ha sido overfit generalmente tienen baja el rendimiento predictivo, ya que puede exagerar menores fluctuaciones en los datos.

La posibilidad de sobreajuste existe debido a que el criterio utilizado para el modelo de formación no es el mismo que el criterio usado para juzgar la la eficacia de un modelo. En particular, un modelo es típicamente formados por la maximización de su rendimiento en un conjunto de datos de entrenamiento. Sin embargo, su la eficacia se determina no por su rendimiento en los datos de entrenamiento, pero por su capacidad para realizar bien en invisible de datos. El sobreajuste se produce cuando un modelo que comienza a "memorizar" los datos de entrenamiento en lugar de "aprendizaje" para generalizar a partir de tendencia.

En caso extremo, el sobreajuste del modelo se ajusta perfectamente a los datos de entrenamiento y mal a los datos de prueba. Sin embargo, en la mayoría de los ejemplos de la vida real es mucho más sutil y puede ser mucho más difícil para el juez de sobreajuste. Por último, puede suceder que los datos que usted tiene de su entrenamiento y de prueba son similares, por lo que el modelo parece funcionar bien en ambos conjuntos, pero cuando se utiliza en un conjunto de datos se realiza mal, porque de sobreajuste, como en Google flu trends ejemplo.

Imagine que usted tiene datos acerca de algunas de las $Y$ y su tendencia (graficado a continuación). Tiene datos sobre ella en el tiempo de 0 a 30, y decide usar 0-20 parte de los datos como un conjunto de entrenamiento y de 21 a 30 como un ejemplo. Se comporta muy bien en ambas muestras, es evidente que existe una tendencia lineal, sin embargo cuando se hacen predicciones sobre nuevos invisible antes de que los datos de veces mayor que 30, la buena forma que parece ser ilusoria.

enter image description here

Este es un resumen ejemplo, pero imagino que de la vida real-uno: tienes un modelo que predice las ventas de algún producto, funciona muy bien en verano, pero el otoño y el rendimiento disminuye. Su modelo es el sobreajuste de verano de datos -- tal vez es bueno solo para el verano de datos, tal vez se ha realizado buenas sólo en este año el verano de datos, tal vez este otoño es una de las demás y el modelo está muy bien...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X