4 votos

evaluación previa - clasificación

Realizo la evaluación precuencial así: empiezo con un conjunto de entrenamiento, clasifico un número de ejemplos, luego añado los ejemplos correctamente clasificados en el conjunto de entrenamiento y continúo clasificando el siguiente número de ejemplos no vistos. ¿Se supone que esto aumenta el rendimiento a medida que se añaden ejemplos al conjunto de entrenamiento o esto no se aplica a todos los casos? Por aumentar el rendimiento me refiero a si la F1 media, no sólo la precisión, del segundo fragmento de ejemplos no vistos debe ser mayor que la del primero o ¿es posible que este último fragmento tenga peor F1 media que el primero? Y si tiene peor, ¿qué puede significar esto? ¿Podría significar un problema con los datos de entrenamiento?

Este documento Descubrimiento del conocimiento del sentimiento en los datos de flujo de Twitter describe la evaluación precuela. Experimenta con Naive Bayes y no con SVMs, probablemente por las razones mencionadas en los comentarios más abajo.

Muchas gracias de antemano.

0voto

Yo diría que "en teoría" la calidad debería aumentar hasta llegar a un punto de saturación, como suele ocurrir cuando se aplica el Aprendizaje Activo. Esto debería ser así en general.

Si al añadir más información se obtienen sistemáticamente peores resultados, eso sugeriría que los nuevos datos están mal etiquetados, son ruidosos o que contradicen los vistos anteriormente por algún motivo (por ejemplo, alguna información podría haber cambiado con el tiempo).

Espero que esto ayude,

0voto

SemanticBeeng Puntos 41

los nuevos datos están mal etiquetados

el mismo peso en los "conceptos" antiguos y nuevos

Probable necesidad de detectar y adaptarse a concept drift y/o imbalanced data .

"AUC precuencial para la evaluación de clasificadores y la detección de derivas en flujos de datos en evolución" http://www.cs.put.poznan.pl/dbrzezinski/publications/PrequentialAUC_LNCS.pdf

"abogamos por el uso de la zona bajo el ROC curve (AUC) en entornos de flujo de datos desequilibrados y proponemos un algoritmo incremental eficiente que utiliza una estructura de árbol ordenada con un sliding window para calcular AUC utilizando tiempo y memoria constantes"

En Apache MOA implementa prequential evaluation de machine learning (a diferencia de los modelos holdout evaluation en el aprendizaje por lotes/tradicional).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X