21 votos

Cómo predecir el resultado con sólo casos positivos como la formación?

Por el bien de la simplicidad, digamos que estoy trabajando en el ejemplo clásico de spam/no-correos electrónicos de spam.

Tengo un conjunto de 20000 mensajes de correo electrónico. De estos, sé que el año 2000 son spam, pero yo no tengo ningún ejemplo de no-spam de los correos electrónicos. Me gustaría predecir si el resto de 18000 son spam o no. Idealmente, el resultado que estoy buscando es una probabilidad (o un p-valor) que el correo electrónico es spam.

Qué algoritmo(s) se puede utilizar para hacer una sensata de predicción en esta situación?

Por el momento, estoy pensando en una distancia basada en el método que me diga cómo similar mi correo electrónico es un conocido de correo electrónico de spam. ¿Qué opciones tengo?

Más generalmente, se puede utilizar un método de aprendizaje supervisado, o no necesariamente tienen que tener la negativa de los casos en mi formación conjunto para hacer eso? Estoy limitado a supervisión enfoques de aprendizaje? ¿Qué acerca de semi-supervisado métodos?

20voto

Marc Claesen Puntos 9818

Esto se llama aprendizaje de positivo y sin etiqueta de datos, o de la PU de aprendizaje para el corto, y es un activo nicho de aprendizaje semi-supervisado.

Brevemente, es importante el uso de la etiqueta de datos en el proceso de aprendizaje como los rendimientos mejoraron significativamente de los modelos por las llamadas de una sola clase de clasificadores que están capacitados exclusivamente en positivos conocidos. Sin etiquetar los datos pueden ser incorporados en varias formas, los enfoques predominantes ser el siguiente:

  • de alguna manera inferir un conjunto de probabilidades negativos de la etiqueta de datos y, a continuación, tren supervisado modelo para distinguir positivos conocidos de estos inferirse negativos.
  • el tratamiento de la etiqueta establece como negativo y de alguna manera cuenta para la etiqueta de ruido que se sabe que está presente.

Soy activo en este campo, y en lugar de resumir aquí para usted, recomiendo la lectura de dos de mis artículos y las referencias en él para obtener una visión general del dominio:

  • Un estado-of-the-art técnica para aprender modelos de positivo y sin etiqueta de datos (publicación oficial disponible aquí): http://arxiv.org/abs/1402.3144
  • Una técnica para calcular comúnmente utilizado métricas de rendimiento sin que se conoce negativos (bajo revisión, esta es la primera de su tipo): http://arxiv.org/abs/1504.06837

7voto

FelixNNelson Puntos 104

Estoy suponiendo que no hay muchos casos de spam en su 18000 casos. El uso de un aprendizaje supervisado enfoque para esto, usted necesita tener más de 1 categoría/clase en sus datos. Como usted sabe, 2000 casos son spam, puede etiquetar las restantes 18000 casos como desconocido 'categoría' y entrenar a cualquier aprendizaje supervisado modelo para predecir si un caso es el correo electrónico no deseado o de la categoría de desconocidos. A continuación, compruebe la salida de muestra de la exactitud del modelo para ver qué tan bien el modelo se comporta de distinguir entre las 2 categorías. Si funciona bien, entonces mi suposición de algunos casos de spam en el 'desconocido' de la categoría está garantizado. Si no funciona bien, entonces usted tendrá que utilizar un sin supervisión alumno(como kmeans, etc) y del clúster de identificar a los diferentes grupos homogéneos en sus datos. Luego de identificar que grupos contienen la mayoría de los más de 2000 correos electrónicos de spam y cuáles no, y con la etiqueta como spam y no spam, respectivamente. A continuación, puede continuar con el modelado mediante una supervisado alumno como he descrito anteriormente.

2voto

Lo que el OP está hablando es de una sola clase de tarea de clasificación, que es un muy desafiante.

Son numerosos los trabajos en esta tarea a través de diferentes campos de investigación. También escribí una Eficiente Intrínseca de la Autoría Plan de Verificación Basadas en el Conjunto de Aprendizaje. Es muy fácil adaptarlo a fin de clasificar el spam/correo no deseado, en lugar de los autores. Darle una oportunidad y que me haga saber si usted necesita más detalles...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X