6 votos

Clasificador binario con los datos de entrenamiento para una etiqueta sólo

En algunos problemas de la vida real tales como autenticación, sólo tenemos datos de una etiqueta (la x es autenticado) mientras que la otra etiqueta no tiene ningún dato o sólo pocas entradas (x es un impostor).

¿Qué cambios debemos hacer para ajustar un clasificador para ocuparse de una etiqueta para las entradas de otros/desconocido?

6voto

cbeleites Puntos 12461

Esto es realmente una situación generalizada, por ejemplo en el control de calidad industrial, desea decidir si un lote de producto es apto para la venta. También el diagnóstico médico (si es que no es un diagnóstico diferencial) a menudo se enfrenta con el mismo problema.

Llamado de una clase o unario de los clasificadores de dirección este. La idea es modelo de la "en" clase independientemente de la posibilidad de otras clases.

En quimiometría, SIMCA es un enfoque muy popular para este. Básicamente, usted comprimir su clase en un PCA modelos y, a continuación, desarrollar un límite exterior que se consideren suficientemente improbable que el caso pertenece a esa clase. (Para varias clases independientes, que haga esto para cada clase separtely.)

D. M. de Impuestos: Una clase de la clasificación, el Concepto de aprendizaje en la ausencia de contra-ejemplos, Technische Universiteit Delft, 2001 desarrolla un one-class SVM.

0voto

NARKOZ Puntos 538

Si he entendido bien, usted puede tener muchos datos para la clase a (auth.) y casi todos los de la clase B (impostor) en su (elegidos al azar?) conjunto de entrenamiento?

De Wikipedia (Pseudocount),

En cualquier observado conjunto de datos o muestra de que existe la posibilidad, especialmente con baja probabilidad de eventos y/o pequeños conjuntos de datos, de un posible evento no ocurra. Su frecuencia observada es, por tanto, cero, al parecer, lo que implica una probabilidad de cero. Esto es una simplificación, que es inexacta y, a menudo ineficiente, especialmente en la probabilidad basada en la máquina de aprendizaje de técnicas como las redes neuronales artificiales y modelos ocultos de Markov. Por artificialmente el ajuste de la probabilidad de raro (aunque no imposible) eventos por lo que esas probabilidades no son exactamente cero, se evita la frecuencia cero problema. Ver también Cromwell regla.

Así que me gustaría por lo tanto artificialmente incluyen algunos datos para el otro, muy raros de la etiqueta de clase.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X