Hay dos comúnmente visto enfoques:
Agregar valores atípicos a datos reales por métodos de aleatorización.
Con el fin de obtener una rara clase, reducir la resolución de una clase a la dispersión deseada (generalmente, esta debe ser <<1%)
Para 1 hay algunas variantes - la modificación de una sola atributos, dibujo de cada atributo, pero desde diferentes instancias, etc.; personalmente, estoy no del todo convencido de estos métodos. Debido a que simular un efecto particular de los datos de la dilución, y por lo tanto a menudo a favor de los algoritmos diseñados en torno a un mismo concepto de outlierness. Un método que hace bien en dichos conjuntos de datos, a continuación, a menudo no mal cuando su real los valores atípicos no son causados por este tipo muy específico de errores.
Para 2, usted tendrá que enfrentar el hecho de que algunos de los conjuntos de datos son demasiado duros. El hecho de que una clase es más rara que la de los demás no significa que sean realmente los valores atípicos; incluso si usted reducir hasta el extremo. Además, este enfoque también es bastante ingenuo: se supone que la mayoría de la clase ¿ no contener valores atípicos. En cualquier conjunto de datos reales que he visto cada clase tendrá valores atípicos dentro de la clase, también. Así que no espere que su método para poder ir a 90% en estos conjuntos de datos. Si se puede mejorar de 70% a 80%, entonces su método ya funciona bastante bien. Nada más allá de un 80% puede ser indicativo de un cierto sesgo en mi humilde opinión.
Al revisar la detección de valores atípicos papeles, creo que el resultado mayor de 0.80 a ser sospechoso: el conjunto de datos fue demasiado diseñado para el algoritmo, el algoritmo parámetro fueron sistemáticamente ajustado para encontrar el mejor resultado posible, o tal vez el resultado es falso por completo.
En la mayoría de los casos en donde he visto el WBC conjunto de datos que se utiliza, se transformará en el cáncer de clase como en 10 casos. Pero entonces, usted no debe decirle a su algoritmo para obtener el top 10 de los resultados. En un escenario real, usted no sabe que hay 10 valores atípicos que se pueda encontrar...