2 votos

¿Existe una versión de la precisión ponderada por la prevalencia?

He estado aprendiendo la terminología básica sobre cómo pensar en las pruebas binarias que implican pruebas médicas. Los términos básicos están aquí en esta tabla

enter image description here

Esta es la matriz de confusión .

Mi problema es el siguiente. Nota, asumo que $T = N + P$ es el tamaño de la población total. A continuación, la "precisión" de la prueba se define como

$$ACC = \frac{TP+TN}{T}$$

donde tiene esencialmente los casos que diagnosticó correctamente divididos por el total de casos en los que realizó la prueba.

Pero en el caso de muchas enfermedades, la enfermedad no será prevalente, según la definición de

$$PREV = \frac{P}{T}$$

Esto significa que $ACC$ pueden ser muy parciales. Supongamos que nuestro modelo es "supongamos que nadie tiene una enfermedad" y supongamos que el 98% de la población no la tiene, entonces nuestra precisión sería fabulosa porque acertaríamos el 98% de las veces, pero tendríamos una Tasa de Verdaderos Positivos de 0.

¿Existe una medida para la precisión de las pruebas que pondere esencialmente la $TP$ y $TN$ por prevalencia tal que

$$ACC_{2} = \frac{TP\cdot w_{TP} + TN \cdot w_{TN}}{T}$$

donde $w_{TP}$ y $w_{TN}$ ¿están determinadas de algún modo por la prevalencia de la enfermedad?

Quiero algo que, en otras palabras, me dé una estimación de la precisión global que utilice la prevalencia para ponderar la precisión y evitar que la baja prevalencia de una enfermedad dé lugar a una estimación global sesgada de la precisión.

2voto

Dave Puntos 76

Siempre puedes comparar tu medida de error con la de un modelo de referencia. De hecho, Yo diría que esto es exactamente lo que hace una de las medidas más populares del rendimiento de los modelos : $R^2$ .

En consecuencia, si cree que su $2\%$ es malo porque un modelo de referencia ingenuo que siempre predice la clase mayoritaria también obtiene un porcentaje de error de $2\%$ Utiliza la idea de $R^2$ .

$$ R^2=1-\dfrac{ \text{Your model’s square loss} }{ \text{ Square loss of a baseline model } } $$

Haga el cálculo análogo y sustituya el numerador por su tasa de error y el denominador por la tasa de error del clasificador de referencia. En tu caso, esos valores son iguales, así que acabas con un modelo con $0$ rendimiento: no mejor que el de referencia, que es la verdad. Una buena característica de esto es que informará de que una mejora de $98\%$ precisión a $99\%$ es una reducción a la mitad de la tasa de error, en lugar de una mera mejora de la precisión. $1\%$ .

No obstante, hay que tener en cuenta los problemas de precisión que Stephan Kolassa ha mencionado en los comentarios. Dejaré algunas de mis referencias favoritas para ese tema, aunque admito que hay situaciones en las que todo lo que tienes son las categorías previstas y tienes que utilizar una medida como la precisión, en lugar de reglas de puntuación adecuadas.

Este tema suele surgir en el contexto del desequilibrio de clases como el tuyo, pero no tiene por qué.

Profusión de hilos sobre datos desequilibrados: ¿podemos fusionar o considerar canónico alguno?

¿Son problemáticos los conjuntos de datos desequilibrados y (cómo) pretende ayudar el sobremuestreo?

https://www.fharrell.com/post/class-damage/

https://www.fharrell.com/post/classification/

https://stats.stackexchange.com/a/359936/247274

Regla de puntuación adecuada cuando hay que tomar una decisión (por ejemplo, correo spam frente a correo jamón).

¿Por qué si la muestra es insuficiente o excesiva hay que calibrar las probabilidades de salida?

https://twitter.com/f2harrell/status/1062424969366462473?lang=en

0voto

Thieme Hennis Puntos 31

Hay precisión equilibrada que es una media de sensibilidad y especificidad. Por tanto, si hay el mismo número de personas en la clase positiva y en la negativa, entonces es lo mismo que la exactitud; de lo contrario, se pondera esencialmente en función del tamaño de cada grupo. El nivel de probabilidad es siempre 0,5 y la puntuación perfecta es siempre 1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X