7 votos

¿Cómo puedo evaluar el rendimiento de un método de aprendizaje semi supervisado?

Estoy trabajando con un semi-supervisado de aprendizaje de tareas, donde sólo tengo positiva y sin etiqueta de datos (PU aprendizaje).

He probado un par de algoritmos y le gustaría evaluar su rendimiento.

Para aprendizaje supervisado, yo normalmente uso:

  1. La clasificación errónea de error
  2. Precisión
  3. Curvas ROC

para evaluar el rendimiento.

Sin embargo, ya que sólo tienen positivo y sin etiquetar los datos de mi formación y de los conjuntos de validación no estoy seguro de que estas métricas sentido.

¿Qué métricas se pueden utilizar para evaluar adecuadamente el desempeño de un aprendizaje semi-supervisado método?

6voto

Marc Claesen Puntos 9818

Hemos abordado este problema en la Evaluación de clasificadores binarios utilizando sólo positivo y sin etiqueta de datos. En concreto, se muestra cómo calcular estrictos límites en cualquier métrica basada en tablas de contingencia (exactitud, precisión, ROC/PR curvas, ...). Nuestro trabajo fue aceptado por todos los revisores de este año NIPS de la conferencia, pero luego rechazado por el editor de la falta de significación (go figure). Vamos a presentar a la próxima KDD.

Nuestro enfoque se basa en la suposición razonable de que positivos conocidos son objeto de un muestreo completamente al azar de todos los positivos. Si usted no puede confiar en este supuesto, cualquier forma de evaluación de desempeño no es factible. Además, se requiere una estimación de la fracción de aspectos positivos en la etiqueta de conjunto, que se pueden adquirir a través de los conocimientos de dominio o explícitamente la obtención de etiquetas para un pequeño subconjunto aleatorio de la etiqueta de conjunto.

4voto

dotancohen Puntos 595

He aquí una de lado el pensamiento de idea: tienes algunas de las etiquetas positivas y se puede estimar el agrupamiento natural de los datos de uso no supervisado de aprendizaje. Trate de medir la superposición entre la información conocida y la forma en que los datos de los grupos, y el uso de la superposición de motivos de la verdad de la medida.

Así, realizar la supervisión de aprendizaje, ver cómo la etiqueta de datos corresponde a los grupos. Si tu estás de suerte, entonces las etiquetas se correlacionan con sólo uno de los grupos o a los valores atípicos (que podría convertirse en clusters dado más datos).

Resultado de Un disjuntos grupos de datos

Digamos que usted tiene 10 etiquetas de 100 ejemplos no etiquetados y después de la agrupación resulta que el 10 etiquetas de pertenecer a un grupo con 20 puntos de datos. Este es el caso feliz y ahora puede etiquetar todos los 20 con 1 y todo lo demás como 0. Problema resuelto, sólo tiene que utilizar las AUC.

Resultados de la B - más de 2 grupos, fuzzy clusters

Lo que si este no es el caso? ¿Qué acerca de los otros grupos?

Si no, digamos que usted tiene 9 etiquetas en el grupo con 20 y 1 en uno de los otros grupos (esperemos que el otro sólo uno). Repetir varias veces y la cuenta de cuantas veces hizo una etiqueta de 'tierra' en un grupo determinado. Calcular la información mutua entre la etiqueta de datos (ejemplos positivos) X y los otros grupos Y a través de varios conglomerados.

I(X;Y)=y\enYxXp(x,y)log(p(x,y)p(x)p(y)),

Así, con K=3 clústeres usted finalmente ha Ik(X;Y) para cada grupo. Asume que estos valores son la base de la verdad (los valores de destino) al evaluar su modelo final.

Esto se basa en la suposición de que su predicción, será también el positivo etiquetas (ahora, más de ellos), distribuido en un modo determinado en la supervisión de agrupación de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X