6 votos

Un método para propagar etiquetas a datos no etiquetados

Tengo un gran conjunto de datos y un pequeño subconjunto está etiquetado como clase "A" y el resto no está etiquetado. Sé que algunos de los datos sin etiquetar también deben ser etiquetados como "A". Para etiquetar algunos datos más, mi idea es hacer lo siguiente:

  1. Construir un clasificador en todo el conjunto de datos separando la clase "A" de los datos no etiquetados.
  2. Ejecutar el clasificador en los datos no etiquetados.
  3. Añade a la clase "A" los elementos no etiquetados clasificados como tales.
  4. Repite.

Hay muchas partes que no están claras y/o son problemáticas, como cuándo parar y cómo establecer exactamente los umbrales para aceptar algo como de clase "A".

¿Se conoce ya un método como éste en la literatura para que pueda obtener algunas ideas sobre cómo hacerlo correctamente?

0 votos

¿Por qué no: (1) ejecutar el algoritmo con datos etiquetados, (2) utilizar el resultado para etiquetar datos no etiquetados?

0 votos

Existen muchos algoritmos de clasificación: árboles de clasificación, k-Means, ... Sería más fácil saber cómo son exactamente sus datos. Pero puedo remitirte a este libro www-bcf.usc.edu/~gareth/ISL . Allí se puede encontrar una introducción bien escrita a algunos de los conceptos.

1 votos

@Tim Creo que el problema es que sólo hay una etiqueta: "A". No hay datos "No - A" para aprender. Estás aprendiendo de un conjunto de datos de "definitivamente A" y "puede o no ser A, quién sabe".

6voto

Marc Claesen Puntos 9818

El aprendizaje a partir de datos positivos y no etiquetados suele denominarse aprendizaje PU. Lo que describes es un enfoque común para este tipo de problemas, aunque personalmente no me gustan estos enfoques iterativos porque son muy sensibles a los falsos positivos (si es que los hay).

Puede consultar dos de mis artículos y sus referencias para obtener una visión general actualizada de la investigación actual sobre estos problemas:

El primer artículo describe un método de vanguardia para aprender clasificadores y el segundo es el único enfoque que permite estimar cualquier métrica de rendimiento a partir de tablas de contingencia de conjuntos de pruebas sin negativos conocidos (ha leído bien).

Ambos documentos también ofrecen una buena visión general de la literatura existente sobre este tema.

2 votos

+1 es interesante. Su respuesta sería aún más útil si proporcionara un breve resumen de esos métodos: ¿cómo funcionan? ¿por qué son mejores?

2voto

Marcus Puntos 325

Lo que describes es una idea muy sólida. Se llama Maximización de Expectativas Semisupervisada y se utiliza a menudo en la clasificación de textos. Aquí hay algo de literatura:

http://research.microsoft.com/en-us/um/people/xiaohe/nips08/paperaccepted/nips2008wsl1_02.pdf

http://ciitresearch.org/dl/index.php/aiml/article/view/AIML052012012

http://www.cs.cmu.edu/~tom/pubs/NigamEtAl-bookChapter.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X