He aquí una de lado el pensamiento de idea: tienes algunas de las etiquetas positivas y se puede estimar el agrupamiento natural de los datos de uso no supervisado de aprendizaje. Trate de medir la superposición entre la información conocida y la forma en que los datos de los grupos, y el uso de la superposición de motivos de la verdad de la medida.
Así, realizar la supervisión de aprendizaje, ver cómo la etiqueta de datos corresponde a los grupos. Si tu estás de suerte, entonces las etiquetas se correlacionan con sólo uno de los grupos o a los valores atípicos (que podría convertirse en clusters dado más datos).
Resultado de Un disjuntos grupos de datos
Digamos que usted tiene 10 etiquetas de 100 ejemplos no etiquetados y después de la agrupación resulta que el 10 etiquetas de pertenecer a un grupo con 20 puntos de datos. Este es el caso feliz y ahora puede etiquetar todos los 20 con 1 y todo lo demás como 0. Problema resuelto, sólo tiene que utilizar las AUC.
Resultados de la B - más de 2 grupos, fuzzy clusters
Lo que si este no es el caso? ¿Qué acerca de los otros grupos?
Si no, digamos que usted tiene 9 etiquetas en el grupo con 20 y 1 en uno de los otros grupos (esperemos que el otro sólo uno). Repetir varias veces y la cuenta de cuantas veces hizo una etiqueta de 'tierra' en un grupo determinado. Calcular la información mutua entre la etiqueta de datos (ejemplos positivos) X y los otros grupos Y a través de varios conglomerados.
I(X;Y)=∑y\enY∑x∈Xp(x,y)log(p(x,y)p(x)p(y)),
Así, con K=3 clústeres usted finalmente ha Ik(X;Y) para cada grupo.
Asume que estos valores son la base de la verdad (los valores de destino) al evaluar su modelo final.
Esto se basa en la suposición de que su predicción, será también el positivo etiquetas (ahora, más de ellos), distribuido en un modo determinado en la supervisión de agrupación de datos.