4 votos

Selección de casos a la etiqueta de clasificación

Estoy trabajando en un problema de clasificación con el objetivo de diagnosticar las enfermedades renales de los datos clínicos. Para cada paciente, tenemos un gran número de observaciones, y le gustaría determinar si un paciente tiene una determinada enfermedad renal. En una minoría de casos, el diagnóstico es conocido, pero por lo general no está, así que parece un positivo/etiqueta de clasificación de la tarea.

Sin embargo, hay un giro: si queremos, podemos tener un experto revise el caso y determinar si la enfermedad está presente o no. Esto consume tiempo y otros recursos, así que no quiero hacer para cada paciente, pero podría hacerlo para algunos.

Una opción sería que el experto de la revisión de una muestra aleatoria de casos. Sin embargo, me pregunto si hay una manera de guiar el proceso, por lo que las opiniones de los expertos la mayoría de los informativos de los casos que podrían proporcionar el mayor incremento en el clasificador de la exactitud. Estamos abiertos a cualquier tipo de clasificador.

Alguna sugerencia de cómo pensar acerca de este problema? Cualesquiera que sean los métodos o herramientas que se deben emplear?

También, cómo debemos tratar con nuestros datos como en el de no ser muy positivo/no marcado, ya que en realidad han positivo, negativo y sin etiqueta de los casos.

Si importa, la prevalencia de la enfermedad varía, dependiendo de la enfermedad que estamos mirando (hay varias), pero varía de <1% ~30% en nuestra cohorte.

1voto

frankov Puntos 72

Así que tu problema es que tienes datos etiquetados y sin etiquetar de datos. Mira 1ª respuesta: http://stackoverflow.com/questions/19170603/what-is-the-difference-between-labeled-and-unlabled-data :

Hay muchas áreas activas de investigación en aprendizaje de máquina que se dirigidas a la integración no marcado y etiquetado de datos para construir una mejor y modelos más exactos del mundo. Aprendizaje Semi-supervisado intentos combinar la etiqueta y la etiqueta de datos (o, más en general, los conjuntos de etiqueta de datos donde sólo algunos puntos de datos tienen etiquetas) en modelos integrados.

Así que tienes a google para el aprendizaje semi-supervisado. Esta es la forma de estado-of-the-art.

A mi manera(sin leer acerca de aprendizaje semi-supervisado tanto), es hacer sin supervisión de aprendizaje sobre el conjunto de datos, para obtener grupos de casos similares. A continuación, utilice los seres humanos(médicos) para describir los clusters - es este cluster enfermedad del riñón o no?. A continuación, se tienen los datos de aprendizaje supervisado. Y usted puede aprender lo que quiera Bayesiano/LinearRegression/clasificadores SVM.

1voto

Sean Hanley Puntos 2428

Aprendizaje Semi-supervisado métodos bien puede ser el camino a seguir, pero no sé. Un enfoque de agrupación para guiar a los médicos hacia el más útil de los casos de la etiqueta (como @user1615070 sugiere) también tiene algunos méritos.

Permítanme sugerir una estrategia diferente. En la regresión logística, a diferencia de la regresión lineal, mucha de la información que existe dentro de un abanico más amplio de sus variables predictoras. Considere la posibilidad de este artificioso de la trama:

enter image description here

Tenga en cuenta que la probabilidad de "éxito" va de $.2$$x = -.73$$.8$$x = .73$, un rango de menos de $1.5$$x$. Es dentro de este rango que tienen menos información sobre el estado de la verdadera etiqueta para $y$.

Con esta idea en mente, me gustaría utilizar un enfoque iterativo para la recopilación de más datos etiquetados:

  1. Ajuste un modelo de regresión logística para la etiqueta de datos.
  2. Determinar el probable estado de $y$ no está claro.
  3. Ejemplo de etiqueta de los casos en la región, donde es probable que obtener la mayor información y tener tu expertos de la etiqueta manualmente.
  4. Enjuague y repita según sea necesario.

Con esta estrategia, usted debe ser capaz de converger en un razonable modelo de manera eficiente.

Tenga en cuenta que este método asume que usted ya tiene algunos etiquetado de los casos con cobertura decente de la predictor espacio. Desde su descripción, deduzco que esto es cierto. Sin embargo, si no es así, usted necesita un paso de 0 a preceder a los de arriba. Si usted no tiene ninguna idea previa de investigación donde la probabilidad de cambios de undiseased a los enfermos, que se desea de la muestra en una cuadrícula para obtener un sentido inicial de la ubicación de destino.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X