7 votos

¿Cómo decidir la "mejor" puntuación de precisión para la predicción de un resultado binario?

El Dr. Frank Harrell mencionó en su libro y Curso BIOS 330 que

La puntuación de exactitud utilizada para construir el modelo debe ser una puntuación continua que utilice toda la información de los datos (por ejemplo, puntuación de Brier, probabilidad logarítmica, desviación, error cuadrático medio)

Me pregunto:

  1. ¿En qué sentido son "continuas" estas puntuaciones? ¿Es continua cuando la vemos como un mapeo de un espacio topológico (conjunto de datos de entrada) a $\mathbb{R}$ ? ¿Cuál sería entonces la topología/métrica en el espacio de eventos?
  2. ¿Por qué la puntuación de Brier es mejor que "la proporción clasificada correctamente" como puntuación de precisión, ya que la puntuación de Brier también es sensible a las frecuencias relativas de la variable de resultado? Considere un modelo no informativo de predecir siempre 1 con probabilidad 1, la puntuación de Brier sería muy diferente si la verdadera prevalencia es 0,30 o 0,005. O quizás no estoy entendiendo bien la sensibilidad aquí.
  3. ¿Cómo elegimos entre las puntuaciones continuas? Tenemos la puntuación de Brier, la probabilidad logarítmica y la desviación para el caso de la predicción binaria. ¿Cómo decidimos cuál de ellos nos dará el "mejor" modelo?

4voto

icelava Puntos 548
  1. Las puntuaciones son continuas no (necesariamente) en el sentido de pequeñas perturbaciones de los datos de entrada, sino en pequeñas perturbaciones del modelo de predicción. Por supuesto, las pequeñas perturbaciones en los datos de entrada suelen producir pequeñas perturbaciones en el modelo.

    Si tiene predicciones probabilísticas para una clasificación discreta y perturba ligeramente estas probabilidades, las puntuaciones sólo cambiarán ligeramente.

    Por el contrario, supongamos que se obtienen clasificaciones no probabilísticas que se basan en estas probabilidades y en un umbral de probabilidad, y luego se evalúa la calidad mediante la exactitud, la precisión o algo similar. Si se perturban ligeramente las probabilidades o el umbral, las clasificaciones no cambiarán, ni tampoco la exactitud/precisión. Sin embargo, con perturbaciones ligeramente mayores, los primeros casos cambiarán discretamente la clasificación, y en este punto, la exactitud/precisión cambiará en un paso discreto.

  2. Sí, las puntuaciones dependerán de la prevalencia subyacente. Pero esto se considera normalmente como algo dado, mientras que lo que queremos variar es el modelo predictivo, así que esto no es un problema. (Y en cualquier caso, como la prevalencia cambia, las puntuaciones cambiarán continuamente con ella).

  3. Cómo elija entre las diferentes reglas de puntuación posibles es un problema más espinoso. Merkle y Steyvers (2013, Análisis de decisiones ) señalar que las puntuaciones Brier y logarítmicas son miembros de una familia de dos parámetros de reglas de puntuación adecuadas (por supuesto, no todos los miembros son estrictamente propio). Dan unas cuantas pautas sobre cómo elegir una regla y señalan que "los investigadores suelen encontrar que la elección de la regla de puntuación estrictamente adecuada tiene un impacto mínimo en las conclusiones", al menos si nos limitamos a las reglas de puntuación "clásicas".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X