4 votos

En un conjunto real de datos de diagnóstico clínico, ¿cómo podemos conocer la "verdadera etiqueta" de un paciente?

Cuando nos enseñaron la probabilidad bayesiana, a menudo veíamos el siguiente ejemplo: en una población, hay un 5% de personas que tienen la enfermedad X, y entre las personas que tienen la enfermedad X, la tecnología actual (es decir, una prueba) puede detectar correctamente este hecho el 98% de las veces. Entonces nos estamos preguntando por la probabilidad de que una persona tenga efectivamente la enfermedad X dado que la prueba afirma que una persona tiene la enfermedad X.

En la clase de aprendizaje automático, cuando hablamos del problema de clasificación, solemos tener la siguiente configuración: supongamos que tenemos un conjunto de datos, una columna son los resultados del diagnóstico, por ejemplo, Si a un paciente se le diagnostica la enfermedad X; otra columna es si este paciente tiene realmente la enfermedad X. Entonces, con muchos atributos de los pacientes, construimos un modelo de aprendizaje automático que se entrenará en un conjunto de datos de entrenamiento, que es digamos el 80% de mi conjunto de datos con AMBOS resultados de diagnóstico y la "etiqueta verdadera" de los pacientes, entonces probamos este modelo en el 20% restante del conjunto de datos, entonces comparamos la predicción del modelo con la "etiqueta verdadera".

Esta es mi pregunta: en una realidad como este contexto de diagnóstico, cómo se obtienen esas "etiquetas verdaderas", especialmente para alguna enfermedad rara X, de la que no sabemos mucho. Supongo que la clave aquí es si una persona tiene la enfermedad X o no, necesita una definición operacionalizable. Por ejemplo, digamos que definimos que una persona tiene fiebre, si su temperatura corporal es de unos 39 grados centígrados. Aquí la temperatura corporal de una persona es medible. En este caso, existe una "etiqueta verdadera" (si una persona tiene fiebre o no). Y se podría inventar alguna prueba diagnóstica que no necesitara tomar la temperatura corporal de una persona (por ejemplo, la frecuencia cardíaca ), pero que aun así fuera capaz de decir algo sobre la temperatura corporal de la persona.

Aquí, en general para los datos de diagnóstico clínico, creo que normalmente sólo habrá una columna que indique si se diagnostica que un paciente tiene la enfermedad X. No hay ninguna columna que indique si este paciente realmente tiene la enfermedad X. Me pregunto cómo se hace en la práctica esto de la validez (o exactitud) de una prueba médica.

Supongamos que existe una definición médica clara de la enfermedad X, digamos que la definición médica podría ser "si hay $\beta$ cantidad de X virus por ml de sangre, entonces el paciente tiene X enfermedad". Aquí, el virus X tiene una definición biológica clara, y dado un tubo de sangre, hay una cantidad real de virus X en él (podría ser cero, pero sea lo que sea, hay una cantidad real). En cuanto a la tecnología actual, tenemos una prueba que se puede utilizar para detectar la cantidad de virus X en la muestra de sangre. Si es en el laboratorio, creo que la precisión de la prueba se puede medir en este contexto, que es: el experimentador ha fomentado una cierta cantidad de virus X y los puso en diferentes muestras de sangre. En este caso, el experimentador conoce la cantidad VERDADERA de virus X en cada muestra de sangre, entonces el experimento aplica esta prueba a estas muestras de sangre y compara los resultados de las muestras de sangre con la cantidad VERDADERA, entonces calcula la precisión de esta prueba. Digamos que si esta prueba es muy precisa (basada en algún umbral), entonces esta prueba se implementa en el hospital.

Sin embargo, como el laboratorio es sólo un pequeño nicho de la realidad, cuando esta prueba se aplique en el hospital y genere una respuesta sí/no a los pacientes, ¿cómo podremos comprobar si esta prueba genera realmente la tasa de precisión en la vida real tal y como se ha medido en el laboratorio?

0voto

kjetil b halvorsen Puntos 7012

Para la pregunta de su primer párrafo: Utilice la regla de bayes, seguramente hay ejemplos en este sitio, como Interpretación del Teorema de Bayes aplicado a los resultados positivos de mamografía y otros.

Entiendo que su pregunta principal es, cuando posteriormente tomamos el diagnóstico médico como dato de respuesta en un modelo de regresión (típicamente regresión logística), modelamos el diagnóstico como cierto, olvidamos que tiene una probabilidad relacionada menor que uno. Una respuesta a esa pregunta tan razonable es que podemos ampliar el modelo de regresión logística (y otros también) para utilizar un diagnóstico incierto como dato de respuesta.

Uno de estos enfoques se ofrece en Venables & Ripley: "Modern Applied Statistics with S (4ª edición)", capítulo 16, página 445. La función se llama logitreg, pero no está incluida en el paquete MASS. Si tiene R y MASS instalados, puede encontrar el archivo que la contiene de la siguiente manera

system.file("scripts", "ch16.R", package="MASS") [1] "/usr/local/lib/R/site-library/MASS/scripts/ch16.R"

y luego puedes abrirlo en un editor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X