Realizo la evaluación precuencial así: empiezo con un conjunto de entrenamiento, clasifico un número de ejemplos, luego añado los ejemplos correctamente clasificados en el conjunto de entrenamiento y continúo clasificando el siguiente número de ejemplos no vistos. ¿Se supone que esto aumenta el rendimiento a medida que se añaden ejemplos al conjunto de entrenamiento o esto no se aplica a todos los casos? Por aumentar el rendimiento me refiero a si la F1 media, no sólo la precisión, del segundo fragmento de ejemplos no vistos debe ser mayor que la del primero o ¿es posible que este último fragmento tenga peor F1 media que el primero? Y si tiene peor, ¿qué puede significar esto? ¿Podría significar un problema con los datos de entrenamiento?
Este documento Descubrimiento del conocimiento del sentimiento en los datos de flujo de Twitter describe la evaluación precuela. Experimenta con Naive Bayes y no con SVMs, probablemente por las razones mencionadas en los comentarios más abajo.
Muchas gracias de antemano.