Clase de desequilibrio en la supervisión de la Máquina de Aprendizaje

Question

Clase de desequilibrio en la supervisión de la Máquina de Aprendizaje

Preguntado el 5 de Enero, 2015: Cuando se hizo la pregunta
2707 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Esta es una pregunta en general, no específica a cualquier método o conjunto de datos. ¿Cómo debemos tratar con una clase de problema de desequilibrio en la supervisión de la Máquina de aprendizaje, donde el número de 0 a alrededor de 90% y el número 1 es de alrededor de 10% en el conjunto de datos.Cómo podemos hacer de manera óptima entrenar el clasificador.

Una de las maneras en que sigo es la de muestreo para realizar el equilibrado conjunto de datos y, a continuación, entrenar el clasificador y repita este paso para muestras múltiples.

Yo siento que esto es aleatorio, Es allí cualquier marco de abordaje de este tipo de problemas.

Preguntado el 5 de Enero, 2015 por user29600

Answer 1

3 Respuestas

Answer 2

51voto

deejjaayy Puntos 101

Hay muchos marcos y enfoques. Este es un tema recurrente.

Ejemplos:

Con submuestreo. Seleccionar una submuestra de los conjuntos de ceros, tal que el tamaño coincide con el conjunto de. Es evidente que existe una pérdida de información, a menos que se utilice un sistema más complejo marco (para un ejemplo, yo dividiría a la primera, el 9 de menores, subconjuntos mutuamente excluyentes, entrenar un modelo en cada uno de ellos y el conjunto de los modelos).
Sobremuestreo. Producir artificiales hasta que la proporción es de 50%/50%. Mi anterior empleador utiliza esta opción por defecto. Hay muchos marcos para esto (creo que HIRIÓ a es el más popular, pero prefiero los trucos más simples, como Ruidoso PCA).
Una Clase De Aprendizaje. Acaba de asumir sus datos tiene un par de puntos reales (los) y un montón de ruido aleatorio que no existe físicamente presentes en el conjunto de datos (cualquier cosa que no es uno es el ruido). El uso de un algoritmo para la eliminación de ruidos de los datos en lugar de un algoritmo de clasificación.
Sensibles A Los Costes De La Formación. El uso de un asimétrica función de costo artificialmente el balance de los procesos de formación.

Algunos iluminados comentarios, en orden creciente de complejidad técnica\nivel de detalles:

Ah, y por cierto, el 90%/10% no es desequilibrada. La transacción de tarjeta de fraude conjuntos de datos a menudo se dividen 99.97%/0.03%. Este es desequilibrada.

Respondido el 14 de Enero, 2015 por deejjaayy (101 Puntos )

Answer 3

15voto

Marc Claesen Puntos 9818

Esto depende en gran medida del método de aprendizaje. La mayoría de propósito general, enfoques de tener uno (o varios) formas de lidiar con esto. Un común fix es para asignar un mayor error en la clasificación de la pena sobre la minoría de la clase, obligando al clasificador de reconocer (SVM, la regresión logística, redes neuronales, ...).

El cambio de muestreo es también una posibilidad como la que usted menciona. En este caso, la corrección de la clase minoritaria es generalmente la mejor solución de submuestreo, la mayoría de la clase.

Algunos métodos, como los bosques aleatorios, no necesita ninguna modificación.

Respondido el 5 de Enero, 2015 por Marc Claesen (9818 Puntos )

Answer 4

6voto

Jack Puntos 18

A menudo el problema no es la frecuencia absoluta pero la cantidad de casos en la clase minoritaria. Si usted no tiene suficiente variación en el blanco cuando se compara con la variación en las características, entonces puede significar que el algoritmo no puede clasificar las cosas de forma muy precisa.

Una cosa es que la clasificación errónea de la pena podría ser utilizado en la clasificación de paso y no en la estimación de los parámetros de paso si es que hay alguno. Algunos métodos no tienen concepto de parámetro, que acaba de producir absoluta etiquetas de clase o clase de probabilidades.

Cuando usted tiene probabilístico estimador entonces usted puede hacer la clasificación de decisión basada en la información teórica motivos o con la combinación de valor de negocio.

Respondido el 5 de Enero, 2015 por Jack (18 Puntos )

Clase de desequilibrio en la supervisión de la Máquina de Aprendizaje

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Clase de desequilibrio en la supervisión de la Máquina de Aprendizaje

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: