Por el bien de la simplicidad, digamos que estoy trabajando en el ejemplo clásico de spam/no-correos electrónicos de spam.
Tengo un conjunto de 20000 mensajes de correo electrónico. De estos, sé que el año 2000 son spam, pero yo no tengo ningún ejemplo de no-spam de los correos electrónicos. Me gustaría predecir si el resto de 18000 son spam o no. Idealmente, el resultado que estoy buscando es una probabilidad (o un p-valor) que el correo electrónico es spam.
Qué algoritmo(s) se puede utilizar para hacer una sensata de predicción en esta situación?
Por el momento, estoy pensando en una distancia basada en el método que me diga cómo similar mi correo electrónico es un conocido de correo electrónico de spam. ¿Qué opciones tengo?
Más generalmente, se puede utilizar un método de aprendizaje supervisado, o no necesariamente tienen que tener la negativa de los casos en mi formación conjunto para hacer eso? Estoy limitado a supervisión enfoques de aprendizaje? ¿Qué acerca de semi-supervisado métodos?