Tengo el siguiente problema:
El objetivo es encontrar un modelo que clasifica las muestras como de riesgo, o menos riesgoso. Sin embargo, sólo el riesgo de muestras están siendo realmente manualmente investigado, es decir, etiquetados. Hasta ahora, un modelo fijo ha sido utilizado para la clasificación de muestras de alto riesgo y de bajo riesgo, y, a continuación, los considerados peligrosos se investigaron más, y se llegó a la conclusión, si se trataba de una falsa alarma, y en caso contrario, se intensificó.
Eso significa que la existente etiquetado de datos, así como el futuro etiquetado de datos, estará sesgada hacia lo que se considera riesgoso por el modelo fijo, y un montón de verdaderos positivos se puede perder debido a que.
Es allí una manera inteligente de reducir el impacto de este sesgo de selección cuando el entrenamiento supervisado modelo?