La siguiente no se limita a NB + LogRes
El sobreajuste = Pérdida de generalización.
Cuando se entrena un modelo sobre el conjunto de datos que generalmente asumen que los datos que utiliza para la formación tiene una estructura similar a la de los datos que el modelo se aplica a más tarde (el supuesto general de predecir el futuro a partir del pasado). Así que si usted retire las piezas de los datos (es decir, las instancias mal clasificadas) y entrenar un modelo en este reducido conjunto de datos, cambia la estructura de los datos en comparación con el conjunto de datos de prueba (y, por tanto, violar esta suposición). En este caso, puede suceder lo siguiente (cuando las pruebas de este modelo no fue reducida de la prueba-conjunto de datos):
En el mejor de los casos no pasa nada, por ejemplo, de las siguientes razones:
- El missclassified instancias representadas sólo una pequeña subespacio de las dataspace (corresponde a una alta precisión alcanzada por el primer modelo)
- El modelo clasifica a una parte de la dataspace mejor y otro peor para ellos.
En el peor de los casos la calidad disminuye rápidamente, porque de sobreajuste / pérdida de la generalización de energía. El modelo se centra demasiado en la parte de la dataspace de en el primer paso de instancias correctamente clasificadas y, por tanto, ya no puede hacer que incluso un aproximado de instrucción para el resto de la dataspace.
Yo creo que lo que realmente están buscando es llamado Impulsar, donde se restringe la dataspace a la missclassified casos (es decir, haciendo lo contrario de su estrategia) para refinar el modelo. El procedimiento trata de evitar el sobreajuste por la combinación de los diferentes (subespacio-)modelos después, pero sin embargo todavía es un problema.
Aquí es una simple explicación en el texto de impulsar con un gráfico ilustrativo puede encontrar de utilidad.