Tengo un conjunto de 400 muestras marcadas (8 numérico características) en el que he entrenado a un clasificador binario.
El problema que estoy enfrentando es que una vez que el clasificador se envía a los usuarios, que voy a obtener muestras adicionales, pero estas serán sin etiquetar. Yo estaba investigando las formas más comunes para incorporar la etiqueta de datos con el fin de aumentar en el futuro la exactitud de la clasificación. La forma en que lo veo, tengo 4 opciones:
Olvídate de la clasificador binario existente y el uso de un aprendizaje semi-supervisado algoritmo como S3VM
Mantener el clasificador binario, el uso de un transductive algoritmo de aprendizaje, tales como la propagación de etiqueta, y usar la nueva (pero posiblemente erróneamente) con la etiqueta de datos de volver a entrenar el clasificador binario; repetir este procedimiento.
Mantener el clasificador binario, el uso de un (supervisado?) algoritmo de clústeres de la etiqueta de datos nuevos, y usar la nueva (pero posiblemente erróneamente) con la etiqueta de datos de volver a entrenar el clasificador binario; repetir este procedimiento. Tal vez algunos de la mezcla con el modelo de Maximización de la Expectativa?
Idea alternativa?
Mientras que el 3), parece más bien deficiente, porque de costumbre algoritmo de clústeres de optimizar criterios diferentes de etiquetas no estoy seguro de qué pensar acerca de 1) y 2). Lo que no me gusta en 2) es que después de utilizar una etiqueta algoritmo de propagación, suponemos que estas etiquetas son correctas y basadas en este nuevo conjunto de muestras, queremos seleccionar nuevas características y reeducar a nuestro clasificador. Pero un cambio en la missclassification tasa de ahora se puede derivar forma, ya sea una mala selección de características, pero bien podría provenir del hecho de que las nuevas etiquetas están mal. Para mí, 1) parece reflejar la situación de la mejor. Soy yo la comprensión de la situación correctamente, es decir, es cierto que: 1) es superior a 2) y 2) es superior a 3)?
O hice perder el punto completo y un enfoque alternativo es más apropiado que el de cualquiera de los 3?