54 votos

Clase de desequilibrio en la supervisión de la Máquina de Aprendizaje

Esta es una pregunta en general, no específica a cualquier método o conjunto de datos. ¿Cómo debemos tratar con una clase de problema de desequilibrio en la supervisión de la Máquina de aprendizaje, donde el número de 0 a alrededor de 90% y el número 1 es de alrededor de 10% en el conjunto de datos.Cómo podemos hacer de manera óptima entrenar el clasificador.

Una de las maneras en que sigo es la de muestreo para realizar el equilibrado conjunto de datos y, a continuación, entrenar el clasificador y repita este paso para muestras múltiples.

Yo siento que esto es aleatorio, Es allí cualquier marco de abordaje de este tipo de problemas.

51voto

deejjaayy Puntos 101

Hay muchos marcos y enfoques. Este es un tema recurrente.

Ejemplos:

  • Con submuestreo. Seleccionar una submuestra de los conjuntos de ceros, tal que el tamaño coincide con el conjunto de. Es evidente que existe una pérdida de información, a menos que se utilice un sistema más complejo marco (para un ejemplo, yo dividiría a la primera, el 9 de menores, subconjuntos mutuamente excluyentes, entrenar un modelo en cada uno de ellos y el conjunto de los modelos).
  • Sobremuestreo. Producir artificiales hasta que la proporción es de 50%/50%. Mi anterior empleador utiliza esta opción por defecto. Hay muchos marcos para esto (creo que HIRIÓ a es el más popular, pero prefiero los trucos más simples, como Ruidoso PCA).
  • Una Clase De Aprendizaje. Acaba de asumir sus datos tiene un par de puntos reales (los) y un montón de ruido aleatorio que no existe físicamente presentes en el conjunto de datos (cualquier cosa que no es uno es el ruido). El uso de un algoritmo para la eliminación de ruidos de los datos en lugar de un algoritmo de clasificación.
  • Sensibles A Los Costes De La Formación. El uso de un asimétrica función de costo artificialmente el balance de los procesos de formación.

Algunos iluminados comentarios, en orden creciente de complejidad técnica\nivel de detalles:

Ah, y por cierto, el 90%/10% no es desequilibrada. La transacción de tarjeta de fraude conjuntos de datos a menudo se dividen 99.97%/0.03%. Este es desequilibrada.

15voto

Marc Claesen Puntos 9818

Esto depende en gran medida del método de aprendizaje. La mayoría de propósito general, enfoques de tener uno (o varios) formas de lidiar con esto. Un común fix es para asignar un mayor error en la clasificación de la pena sobre la minoría de la clase, obligando al clasificador de reconocer (SVM, la regresión logística, redes neuronales, ...).

El cambio de muestreo es también una posibilidad como la que usted menciona. En este caso, la corrección de la clase minoritaria es generalmente la mejor solución de submuestreo, la mayoría de la clase.

Algunos métodos, como los bosques aleatorios, no necesita ninguna modificación.

6voto

Jack Puntos 18

A menudo el problema no es la frecuencia absoluta pero la cantidad de casos en la clase minoritaria. Si usted no tiene suficiente variación en el blanco cuando se compara con la variación en las características, entonces puede significar que el algoritmo no puede clasificar las cosas de forma muy precisa.

Una cosa es que la clasificación errónea de la pena podría ser utilizado en la clasificación de paso y no en la estimación de los parámetros de paso si es que hay alguno. Algunos métodos no tienen concepto de parámetro, que acaba de producir absoluta etiquetas de clase o clase de probabilidades.

Cuando usted tiene probabilístico estimador entonces usted puede hacer la clasificación de decisión basada en la información teórica motivos o con la combinación de valor de negocio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X