Cuando nos enseñaron la probabilidad bayesiana, a menudo veíamos el siguiente ejemplo: en una población, hay un 5% de personas que tienen la enfermedad X, y entre las personas que tienen la enfermedad X, la tecnología actual (es decir, una prueba) puede detectar correctamente este hecho el 98% de las veces. Entonces nos estamos preguntando por la probabilidad de que una persona tenga efectivamente la enfermedad X dado que la prueba afirma que una persona tiene la enfermedad X.
En la clase de aprendizaje automático, cuando hablamos del problema de clasificación, solemos tener la siguiente configuración: supongamos que tenemos un conjunto de datos, una columna son los resultados del diagnóstico, por ejemplo, Si a un paciente se le diagnostica la enfermedad X; otra columna es si este paciente tiene realmente la enfermedad X. Entonces, con muchos atributos de los pacientes, construimos un modelo de aprendizaje automático que se entrenará en un conjunto de datos de entrenamiento, que es digamos el 80% de mi conjunto de datos con AMBOS resultados de diagnóstico y la "etiqueta verdadera" de los pacientes, entonces probamos este modelo en el 20% restante del conjunto de datos, entonces comparamos la predicción del modelo con la "etiqueta verdadera".
Esta es mi pregunta: en una realidad como este contexto de diagnóstico, cómo se obtienen esas "etiquetas verdaderas", especialmente para alguna enfermedad rara X, de la que no sabemos mucho. Supongo que la clave aquí es si una persona tiene la enfermedad X o no, necesita una definición operacionalizable. Por ejemplo, digamos que definimos que una persona tiene fiebre, si su temperatura corporal es de unos 39 grados centígrados. Aquí la temperatura corporal de una persona es medible. En este caso, existe una "etiqueta verdadera" (si una persona tiene fiebre o no). Y se podría inventar alguna prueba diagnóstica que no necesitara tomar la temperatura corporal de una persona (por ejemplo, la frecuencia cardíaca ), pero que aun así fuera capaz de decir algo sobre la temperatura corporal de la persona.
Aquí, en general para los datos de diagnóstico clínico, creo que normalmente sólo habrá una columna que indique si se diagnostica que un paciente tiene la enfermedad X. No hay ninguna columna que indique si este paciente realmente tiene la enfermedad X. Me pregunto cómo se hace en la práctica esto de la validez (o exactitud) de una prueba médica.
Supongamos que existe una definición médica clara de la enfermedad X, digamos que la definición médica podría ser "si hay $\beta$ cantidad de X virus por ml de sangre, entonces el paciente tiene X enfermedad". Aquí, el virus X tiene una definición biológica clara, y dado un tubo de sangre, hay una cantidad real de virus X en él (podría ser cero, pero sea lo que sea, hay una cantidad real). En cuanto a la tecnología actual, tenemos una prueba que se puede utilizar para detectar la cantidad de virus X en la muestra de sangre. Si es en el laboratorio, creo que la precisión de la prueba se puede medir en este contexto, que es: el experimentador ha fomentado una cierta cantidad de virus X y los puso en diferentes muestras de sangre. En este caso, el experimentador conoce la cantidad VERDADERA de virus X en cada muestra de sangre, entonces el experimento aplica esta prueba a estas muestras de sangre y compara los resultados de las muestras de sangre con la cantidad VERDADERA, entonces calcula la precisión de esta prueba. Digamos que si esta prueba es muy precisa (basada en algún umbral), entonces esta prueba se implementa en el hospital.
Sin embargo, como el laboratorio es sólo un pequeño nicho de la realidad, cuando esta prueba se aplique en el hospital y genere una respuesta sí/no a los pacientes, ¿cómo podremos comprobar si esta prueba genera realmente la tasa de precisión en la vida real tal y como se ha medido en el laboratorio?