Extracción de muestras de la mayoría de la clase puede causar el clasificador de faltar a la importancia de los conceptos/características relativas a la mayoría de la clase.
Una estrategia llamada informado submuestreo demostrado buenos resultados. El algoritmo de aprendizaje no supervisado se utiliza para realizar, de forma independiente muestreo aleatorio de la mayoría de la clase. Varios clasificadores basados en la combinación de cada una de las mayoría de la clase subconjunto con la minoría de la clase de datos son los elegidos.
Otro ejemplo de la información submuestreo, utiliza los K-vecinos más cercanos (KNN) clasificador para lograr submuestreo. Uno de los cuatro métodos en KNN, parece más sencillo, llamado NearMiss-3, se selecciona un número determinado de los más cercanos mayoría de las muestras para cada una minoría de la muestra para garantizar que todos los de la minoría de la muestra está rodeado por algunos de la mayoría de las muestras. Sin embargo, otro método, NearMiss-2, en la que la mayoría de la clase de muestras se selecciona si su distancia promedio a los tres más alejado de la minoría de la clase de las muestras son los más pequeños, se ha demostrado que la mayoría de enfoque competitivo en el desequilibrio de aprendizaje.
El beneficio (costo) de la matriz puede ser considerado como una representación numérica de la sanción de la clasificación de las muestras de una clase a otra. En el árbol de decisión,
(1) sensibles a los costos de los ajustes se pueden aplicar a los umbrales de decisión;
La curva ROC se aplica a la trama de la serie de rendimiento de los valores de los umbrales de decisión se mueve desde el punto donde el total de errores en las clasificaciones en la mayoría de la clase son máximamente costoso para el punto donde el total de errores en las clasificaciones sobre la minoría de la clase son máximamente costoso. La más dominante en el punto de la curva ROC, corresponde a la decisión final de umbral. Lea este artículo para obtener más detalles.
(2) el costo sensible a consideraciones se puede dar a la división de criterios en cada nodo;
Esto se logra mediante el ajuste de una impureza de la función, y la división con la máxima precisión de adaptación en cada nodo es seleccionado. Este tutorial generaliza los efectos de la decisión crecimiento de los árboles, para cualquier elección de escupir criterios.
(3) sensibles a los costos de la poda de los esquemas puede ser aplicado para el árbol.
Poda mejora generalización mediante la eliminación de las hojas con la clase de estimaciones de probabilidad por debajo de un umbral especificado. Laplace método de alisamiento en la poda técnica se describe en el mismo tutorial de aquí a reducir la probabilidad de que la poda elimina las hojas en la clase minoritaria.