Tengo una tarea de clasificación, donde tengo un número de predictores (uno de los cuales es el más informativo), y estoy usando la de MARTE modelo para construir mi clasificador (estoy interesado en cualquier modelo simple, y el uso de glms para fines ilustrativos estaría bien también). Ahora tengo una enorme clase de desequilibrio en los datos de entrenamiento (aproximadamente 2700 muestras negativas para cada muestra positiva). Similar a la Información de las tareas de Recuperación, estoy más preocupado acerca de la predicción de la parte superior del ranking positivo de la prueba de muestras. Por esta razón, el rendimiento en Precisión Recall curvas es importante para mí.
Primero de todo, yo simplemente entrenado el modelo en mi formación, datos de mantenimiento de la clase de desequilibrio como es. Visualizo mi modelo de aprendizaje en red, y la más importante de entrada en azul.
Capacitación sobre desequilibrada de datos, evaluación de la desequilibrada datos:
El pensamiento de que la clase de desequilibrio es tirar el modelo fuera, ya que el aprendizaje de la parte superior del ranking de muestras positivas es una minúscula parte de todo el conjunto de datos, me sobremuestrea el positivo de puntos de entrenamiento para obtener un equilibrado conjunto de datos de entrenamiento. Cuando me trama el rendimiento en el equilibrado conjunto de entrenamiento, puedo obtener un buen rendimiento. En tanto el PR y curvas ROC, mi modelo de aprendizaje que hace mejor las entradas.
Formación on (sobremuestrea) equilibrada de datos, la evaluación también en (sobremuestrea) equilibrada de datos:
Sin embargo, si puedo usar este modelo formado en el equilibrado de los datos para predecir el original, el desequilibrio del conjunto de entrenamiento, todavía se me pone un mal rendimiento en la PR de la curva.
Formación on (sobremuestrea) equilibrada de datos, la evaluación de los originales desequilibrada datos:
Así que mis preguntas son:
- Es la razón por la visualización de la PR curva muestra un rendimiento inferior de mi modelo de aprendizaje (rojo), mientras que la curva ROC muestra las mejoras debido a la clase de desequilibrio?
- Puede remuestreo/muestreo/abajo-métodos de muestreo resolver este para forzar la formación para centrarse en la alta precisión/baja recuperación de la región?
- ¿Hay alguna otra manera de enfocar la formación en la alta precisión/baja recuperación de la región?