9 votos

Incorporar nuevos datos sin etiqueta en el clasificador entrenado en un pequeño conjunto de datos etiquetados

Tengo un conjunto de 400 muestras marcadas (8 numérico características) en el que he entrenado a un clasificador binario.

El problema que estoy enfrentando es que una vez que el clasificador se envía a los usuarios, que voy a obtener muestras adicionales, pero estas serán sin etiquetar. Yo estaba investigando las formas más comunes para incorporar la etiqueta de datos con el fin de aumentar en el futuro la exactitud de la clasificación. La forma en que lo veo, tengo 4 opciones:

  1. Olvídate de la clasificador binario existente y el uso de un aprendizaje semi-supervisado algoritmo como S3VM

  2. Mantener el clasificador binario, el uso de un transductive algoritmo de aprendizaje, tales como la propagación de etiqueta, y usar la nueva (pero posiblemente erróneamente) con la etiqueta de datos de volver a entrenar el clasificador binario; repetir este procedimiento.

  3. Mantener el clasificador binario, el uso de un (supervisado?) algoritmo de clústeres de la etiqueta de datos nuevos, y usar la nueva (pero posiblemente erróneamente) con la etiqueta de datos de volver a entrenar el clasificador binario; repetir este procedimiento. Tal vez algunos de la mezcla con el modelo de Maximización de la Expectativa?

  4. Idea alternativa?

Mientras que el 3), parece más bien deficiente, porque de costumbre algoritmo de clústeres de optimizar criterios diferentes de etiquetas no estoy seguro de qué pensar acerca de 1) y 2). Lo que no me gusta en 2) es que después de utilizar una etiqueta algoritmo de propagación, suponemos que estas etiquetas son correctas y basadas en este nuevo conjunto de muestras, queremos seleccionar nuevas características y reeducar a nuestro clasificador. Pero un cambio en la missclassification tasa de ahora se puede derivar forma, ya sea una mala selección de características, pero bien podría provenir del hecho de que las nuevas etiquetas están mal. Para mí, 1) parece reflejar la situación de la mejor. Soy yo la comprensión de la situación correctamente, es decir, es cierto que: 1) es superior a 2) y 2) es superior a 3)?

O hice perder el punto completo y un enfoque alternativo es más apropiado que el de cualquiera de los 3?

2voto

Colin Wren Puntos 11

(3) no tiene que ser malo si usted tiene algunos previa acerca de lo que los clústeres podría parecer, sin embargo, usted no estaría usando su etiquetado datos de forma óptima. Como usted señala, puede de forma iterativa entrenar un clasificador en su propia producción.

(2) no es tan diferente de (3) en realidad, va a depender de lo bien que su métrica es

(1) es lo que recomiendo, aunque no tiene que ser S3VM. Un modelo Bayesiano trataría a todos los desaparecidos de la etiqueta como variables latentes y aprender de la distribución posterior de ambos la falta de etiquetas y el clasificador de parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X