Tengo un gran conjunto de datos y un pequeño subconjunto está etiquetado como clase "A" y el resto no está etiquetado. Sé que algunos de los datos sin etiquetar también deben ser etiquetados como "A". Para etiquetar algunos datos más, mi idea es hacer lo siguiente:
- Construir un clasificador en todo el conjunto de datos separando la clase "A" de los datos no etiquetados.
- Ejecutar el clasificador en los datos no etiquetados.
- Añade a la clase "A" los elementos no etiquetados clasificados como tales.
- Repite.
Hay muchas partes que no están claras y/o son problemáticas, como cuándo parar y cómo establecer exactamente los umbrales para aceptar algo como de clase "A".
¿Se conoce ya un método como éste en la literatura para que pueda obtener algunas ideas sobre cómo hacerlo correctamente?
0 votos
¿Por qué no: (1) ejecutar el algoritmo con datos etiquetados, (2) utilizar el resultado para etiquetar datos no etiquetados?
0 votos
Existen muchos algoritmos de clasificación: árboles de clasificación, k-Means, ... Sería más fácil saber cómo son exactamente sus datos. Pero puedo remitirte a este libro www-bcf.usc.edu/~gareth/ISL . Allí se puede encontrar una introducción bien escrita a algunos de los conceptos.
1 votos
@Tim Creo que el problema es que sólo hay una etiqueta: "A". No hay datos "No - A" para aprender. Estás aprendiendo de un conjunto de datos de "definitivamente A" y "puede o no ser A, quién sabe".
0 votos
@Zach ok, pero hay algoritmos de clasificación para estos casos, por ejemplo, SVM de una clase.
2 votos
@Tim la SVM de una clase es una mala elección para esta tarea, ya que no utiliza los datos no etiquetados en absoluto. Las técnicas de aprendizaje de la UP producen lejos mejores resultados.