34 votos

Optimización de las curvas de precisión retirada bajo desequilibrio de clase de

Tengo una tarea de clasificación, donde tengo un número de predictores (uno de los cuales es el más informativo), y estoy usando la de MARTE modelo para construir mi clasificador (estoy interesado en cualquier modelo simple, y el uso de glms para fines ilustrativos estaría bien también). Ahora tengo una enorme clase de desequilibrio en los datos de entrenamiento (aproximadamente 2700 muestras negativas para cada muestra positiva). Similar a la Información de las tareas de Recuperación, estoy más preocupado acerca de la predicción de la parte superior del ranking positivo de la prueba de muestras. Por esta razón, el rendimiento en Precisión Recall curvas es importante para mí.

Primero de todo, yo simplemente entrenado el modelo en mi formación, datos de mantenimiento de la clase de desequilibrio como es. Visualizo mi modelo de aprendizaje en red, y la más importante de entrada en azul.

Capacitación sobre desequilibrada de datos, evaluación de la desequilibrada datos:

PR for unbalanced trainingROC for unbalanced training

El pensamiento de que la clase de desequilibrio es tirar el modelo fuera, ya que el aprendizaje de la parte superior del ranking de muestras positivas es una minúscula parte de todo el conjunto de datos, me sobremuestrea el positivo de puntos de entrenamiento para obtener un equilibrado conjunto de datos de entrenamiento. Cuando me trama el rendimiento en el equilibrado conjunto de entrenamiento, puedo obtener un buen rendimiento. En tanto el PR y curvas ROC, mi modelo de aprendizaje que hace mejor las entradas.

Formación on (sobremuestrea) equilibrada de datos, la evaluación también en (sobremuestrea) equilibrada de datos:

PR for balanced training, visualised on balanced datasetROC for balanced training, visualised on balanced dataset

Sin embargo, si puedo usar este modelo formado en el equilibrado de los datos para predecir el original, el desequilibrio del conjunto de entrenamiento, todavía se me pone un mal rendimiento en la PR de la curva.

Formación on (sobremuestrea) equilibrada de datos, la evaluación de los originales desequilibrada datos:

PR for balanced training, visualised on original, unbalanced datasetROC for balanced training, visualised on original, unbalanced dataset

Así que mis preguntas son:

  1. Es la razón por la visualización de la PR curva muestra un rendimiento inferior de mi modelo de aprendizaje (rojo), mientras que la curva ROC muestra las mejoras debido a la clase de desequilibrio?
  2. Puede remuestreo/muestreo/abajo-métodos de muestreo resolver este para forzar la formación para centrarse en la alta precisión/baja recuperación de la región?
  3. ¿Hay alguna otra manera de enfocar la formación en la alta precisión/baja recuperación de la región?

18voto

Cory Puntos 4442
  1. La curva ROC es insensible a los cambios en la clase de desequilibrio; ver Fawcett (2004) "ROC Gráficos: Notas y Consideraciones Prácticas para los Investigadores".
  2. El muestreo de la baja frecuencia de clase es un enfoque razonable.
  3. Hay muchas otras maneras de lidiar con la clase de desequilibrio. Impulsar y embolsado son dos técnicas que vienen a la mente. Esto parece como un relevante estudio reciente: la Comparación de Impulsar y Embolsado de las Técnicas Con Ruidoso y Desequilibrada de Datos

P. S. Limpio problema; me encantaría saber cómo resulta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X