6 votos

¿OVERFIT quitando objetos erróneamente?

Realmente esta pregunta puede ser fácil para usted, pero necesito aprender la respuesta correcta.
¿Si elimino erróneamente las instancias del conjunto de datos con Naive Bayes (da mínima tasa FP) y luego tren logístico clasificador en este conjunto de datos filtrado, se lo overfit o no?

Gracias de antemano.

6voto

Xenph Yan Puntos 20883

La siguiente no se limita a NB + LogRes

El sobreajuste = Pérdida de generalización.

Cuando se entrena un modelo sobre el conjunto de datos que generalmente asumen que los datos que utiliza para la formación tiene una estructura similar a la de los datos que el modelo se aplica a más tarde (el supuesto general de predecir el futuro a partir del pasado). Así que si usted retire las piezas de los datos (es decir, las instancias mal clasificadas) y entrenar un modelo en este reducido conjunto de datos, cambia la estructura de los datos en comparación con el conjunto de datos de prueba (y, por tanto, violar esta suposición). En este caso, puede suceder lo siguiente (cuando las pruebas de este modelo no fue reducida de la prueba-conjunto de datos):

En el mejor de los casos no pasa nada, por ejemplo, de las siguientes razones:

  • El missclassified instancias representadas sólo una pequeña subespacio de las dataspace (corresponde a una alta precisión alcanzada por el primer modelo)
  • El modelo clasifica a una parte de la dataspace mejor y otro peor para ellos.

En el peor de los casos la calidad disminuye rápidamente, porque de sobreajuste / pérdida de la generalización de energía. El modelo se centra demasiado en la parte de la dataspace de en el primer paso de instancias correctamente clasificadas y, por tanto, ya no puede hacer que incluso un aproximado de instrucción para el resto de la dataspace.


Yo creo que lo que realmente están buscando es llamado Impulsar, donde se restringe la dataspace a la missclassified casos (es decir, haciendo lo contrario de su estrategia) para refinar el modelo. El procedimiento trata de evitar el sobreajuste por la combinación de los diferentes (subespacio-)modelos después, pero sin embargo todavía es un problema.

Aquí es una simple explicación en el texto de impulsar con un gráfico ilustrativo puede encontrar de utilidad.

0voto

Graviton Puntos 28358

Naive Bayes y regresión logística (clasificación) son ambos clasificadores lineales. Si quita todos los casos erróneamente, le permitirá a un número infinito de separadores que tienen formación 0 error. En el caso de la regresión logística, esto se traduce a su matriz de información ser singular (la matriz de información debe ser invertida en cada iteración de GLM).

No sé si eso es lo que quieres decir por overfit.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X