Estoy trabajando en un problema de clasificación con el objetivo de diagnosticar las enfermedades renales de los datos clínicos. Para cada paciente, tenemos un gran número de observaciones, y le gustaría determinar si un paciente tiene una determinada enfermedad renal. En una minoría de casos, el diagnóstico es conocido, pero por lo general no está, así que parece un positivo/etiqueta de clasificación de la tarea.
Sin embargo, hay un giro: si queremos, podemos tener un experto revise el caso y determinar si la enfermedad está presente o no. Esto consume tiempo y otros recursos, así que no quiero hacer para cada paciente, pero podría hacerlo para algunos.
Una opción sería que el experto de la revisión de una muestra aleatoria de casos. Sin embargo, me pregunto si hay una manera de guiar el proceso, por lo que las opiniones de los expertos la mayoría de los informativos de los casos que podrían proporcionar el mayor incremento en el clasificador de la exactitud. Estamos abiertos a cualquier tipo de clasificador.
Alguna sugerencia de cómo pensar acerca de este problema? Cualesquiera que sean los métodos o herramientas que se deben emplear?
También, cómo debemos tratar con nuestros datos como en el de no ser muy positivo/no marcado, ya que en realidad han positivo, negativo y sin etiqueta de los casos.
Si importa, la prevalencia de la enfermedad varía, dependiendo de la enfermedad que estamos mirando (hay varias), pero varía de <1% ~30% en nuestra cohorte.