5 votos

Problema de clasificación usando dataset desequilibrada

Estoy trabajando en un patrón de identificación/clasificación de problema en un desequilibrio del conjunto de datos, con el objetivo de que no se destinan proporción en la población de aprox 1%:99%. Hay alrededor de 0,5 millones de registros en mi conjunto de datos.

Estoy restringido el uso de SAS E-Minero para este análisis. Actualmente estoy utilizando el siguiente enfoque:

  1. Dar la adecuada toma de pesos de ganancias (matriz)
  2. Undersample en la mayoría de la clase o "bueno" en los registros.
  3. Ejecución de un árbol de decisión en la muestra.

Mis preguntas son:

  1. ¿Cómo puedo deshacer el efecto de submuestreo de la mayoría de la clase?
  2. No dar la adecuada toma de pesos de la realidad, ayuda en la eliminación de los sesgos introducidos por submuestreo? O son estos realmente dos cosas.
  3. Incluso si estos decisión de pesos se aplican, ¿cómo podemos determinar la decisión óptima umbral para basar nuestras decisiones.

He intentado impulsar algoritmo (sin ajuste de las probabilidades previas y sin el uso de decisión de pesos), pero el número de reglas y patrones que son arrojados son alrededor de 20+ que parece como una leve preocupación para mí.

Agradecería cualquier aporte de CV gente de la comunidad.

5voto

lennon310 Puntos 1882

Extracción de muestras de la mayoría de la clase puede causar el clasificador de faltar a la importancia de los conceptos/características relativas a la mayoría de la clase.

Una estrategia llamada informado submuestreo demostrado buenos resultados. El algoritmo de aprendizaje no supervisado se utiliza para realizar, de forma independiente muestreo aleatorio de la mayoría de la clase. Varios clasificadores basados en la combinación de cada una de las mayoría de la clase subconjunto con la minoría de la clase de datos son los elegidos.

Otro ejemplo de la información submuestreo, utiliza los K-vecinos más cercanos (KNN) clasificador para lograr submuestreo. Uno de los cuatro métodos en KNN, parece más sencillo, llamado NearMiss-3, se selecciona un número determinado de los más cercanos mayoría de las muestras para cada una minoría de la muestra para garantizar que todos los de la minoría de la muestra está rodeado por algunos de la mayoría de las muestras. Sin embargo, otro método, NearMiss-2, en la que la mayoría de la clase de muestras se selecciona si su distancia promedio a los tres más alejado de la minoría de la clase de las muestras son los más pequeños, se ha demostrado que la mayoría de enfoque competitivo en el desequilibrio de aprendizaje.

El beneficio (costo) de la matriz puede ser considerado como una representación numérica de la sanción de la clasificación de las muestras de una clase a otra. En el árbol de decisión,

(1) sensibles a los costos de los ajustes se pueden aplicar a los umbrales de decisión;

La curva ROC se aplica a la trama de la serie de rendimiento de los valores de los umbrales de decisión se mueve desde el punto donde el total de errores en las clasificaciones en la mayoría de la clase son máximamente costoso para el punto donde el total de errores en las clasificaciones sobre la minoría de la clase son máximamente costoso. La más dominante en el punto de la curva ROC, corresponde a la decisión final de umbral. Lea este artículo para obtener más detalles.

(2) el costo sensible a consideraciones se puede dar a la división de criterios en cada nodo;

Esto se logra mediante el ajuste de una impureza de la función, y la división con la máxima precisión de adaptación en cada nodo es seleccionado. Este tutorial generaliza los efectos de la decisión crecimiento de los árboles, para cualquier elección de escupir criterios.

(3) sensibles a los costos de la poda de los esquemas puede ser aplicado para el árbol.

Poda mejora generalización mediante la eliminación de las hojas con la clase de estimaciones de probabilidad por debajo de un umbral especificado. Laplace método de alisamiento en la poda técnica se describe en el mismo tutorial de aquí a reducir la probabilidad de que la poda elimina las hojas en la clase minoritaria.

1voto

Boris Tsirelson Puntos 191

Primero de todo, usted no necesita a la baja de la muestra, a menos que usted no tiene suficiente poder de cómputo para ajustar el modelo a la totalidad del conjunto de datos. Un enfoque alternativo es la asignación de destino observaciones un peso de 99 y el no-objeto de las observaciones de un peso de 1. Esto significa que el modelo considera el 1 de destino errónea clasificación igual a 99 no meta mis-clasificaciones, y el sesgo de la modelo hacia el más pequeño de la clase, sin la necesidad para la toma de muestras.

Básicamente, cuando por muestreo, se deshace de información, lo que reduce la precisión del clasificador. Desde el positivo de la clase suele ser más interesante que la negativa de la clase en general, no es un gran problema, pero si usted puede utilizar todos los datos, usted debe! El ajuste de los pesos es otra manera de decir el modelo de lo que es importante y lo que no lo es.

Por último, independientemente de su enfoque, puede ver como su modelo realiza sobre un conjunto de prueba. Calcular una curva ROC, la cual le permitirá ver lo que la disyuntiva es entre los verdaderos positivos y falsos positivos para su modelo y determinar un umbral de decisión. Usted también puede usar su beneficio de la matriz en este paso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X