30 votos

¿Es la precisión una regla de puntuación inadecuada en una clasificación binaria?

Recientemente he estado aprendiendo sobre las reglas de puntuación adecuadas para los clasificadores probabilísticos. En varios hilos de este sitio web se ha hecho hincapié en que la precisión es una regla de puntuación inadecuada y no debe utilizarse para evaluar la calidad de las predicciones generadas por un modelo probabilístico como la regresión logística.

Sin embargo, en bastantes artículos académicos que he leído se da la pérdida por clasificación errónea como ejemplo de una regla de puntuación adecuada (no estricta) en un entorno de clasificación binaria. La explicación más clara que he encontrado se encuentra en este documento en la parte inferior de la página 7. A mi entender, minimizar la pérdida por clasificación errónea equivale a maximizar la precisión, y las ecuaciones del artículo tienen sentido intuitivamente.

Por ejemplo: utilizando la notación del documento, si la probabilidad condicional verdadera (dado algún vector de características x ) de la clase de interés es η = 0,7, cualquier previsión q > 0,5 tendría una pérdida esperada R (η| q ) = 0,7(0) + 0,3(1) = 0,3, y cualquier q $\leq$ 0,5 tendría una pérdida esperada de 0,7. Por tanto, la función de pérdida se minimizaría en q \= η = 0,7 y, en consecuencia, adecuada; la generalización a toda la gama de probabilidades condicionales verdaderas y previsiones parece bastante directa a partir de ahí.

Suponiendo que los cálculos y afirmaciones anteriores sean correctos, los inconvenientes de un mínimo no único y de que todas las predicciones por encima de 0,5 compartan la misma pérdida mínima esperada son obvios. Sigo sin ver ninguna razón para utilizar la precisión en lugar de las alternativas tradicionales como la puntuación logarítmica, la puntuación Brier, etc. Sin embargo, ¿es correcto decir que la precisión es una regla de puntuación adecuada cuando se evalúan modelos probabilísticos en un entorno binario, o estoy cometiendo un error, ya sea en mi comprensión de la pérdida por clasificación errónea o al equipararla con la precisión?

33voto

icelava Puntos 548

TL;DR

La precisión es una regla de puntuación inadecuada. No la utilice.

La versión ligeramente más larga

En realidad, la precisión ni siquiera es una regla de puntuación. Así que preguntarse si es (estrictamente) adecuada es un error de categoría. Lo más que podemos decir es que bajo supuestos adicionales , la precisión es coherente con una regla de puntuación que es incorrecta, discontinua y engañosa. (No la utilice.)

Su confusión

Su confusión proviene del hecho de que la pérdida por clasificación errónea, según el artículo que cita, tampoco es una regla de puntuación.

Los detalles: reglas de puntuación frente a evaluaciones de clasificación

Fijemos la terminología. Estamos interesados en un resultado binario $y\in\{0,1\}$ y tenemos una predicción probabilística $\widehat{q} = \widehat{P}(Y=1)\in(0,1)$ . Sabemos que $P(Y=1)=\eta>0.5$ pero nuestro modelo $\widehat{q}$ puede o no saberlo.

A regla de puntuación es un mapeo que toma una predicción probabilística $\widehat{q}$ y un resultado $y$ a una pérdida,

$$ s\colon (\widehat{q},y) \mapsto s(\widehat{q},y). $$

$s$ es correcto si se optimiza en expectativa mediante $\widehat{q}=\eta$ . ("Optimizado" suele significar "minimizado", pero algunos autores invierten los signos e intentan maximizar una regla de puntuación). $s$ es estrictamente correcto si se optimiza en expectativa sólo por $\widehat{q}=\eta$ .

Normalmente evaluaremos $s$ en muchas predicciones $\widehat{q}_i$ y los resultados correspondientes $y_i$ y la media para estimar esta expectativa.

Ahora, ¿qué es precisión ? La precisión no toma como argumento una predicción probabilística. Se necesita una clasificación $\widehat{y}\in\{0,1\}$ y un resultado:

$$ a\colon (\widehat{y},y)\mapsto a(\widehat{y},y) = \begin{cases} 1, & \widehat{y}=y \\ 0, & \widehat{y} \neq y. \end{cases} $$

Por lo tanto, la precisión no es una regla de puntuación . Se trata de una evaluación de clasificación. (Es un término que acabo de inventar; no lo busques en la bibliografía).

Ahora, por supuesto podemos tomar una predicción probabilística como nuestra $\widehat{q}$ y convertirlo en una clasificación $\widehat{y}$ . Pero para ello necesitaremos los supuestos adicionales aludidos anteriormente. Por ejemplo, es muy habitual utilizar un umbral $\theta$ y clasificar:

$$ \widehat{y}(\widehat{q},\theta) := \begin{cases} 1, & \widehat{q}\geq \theta \\ 0, & \widehat{q}<\theta. \end{cases} $$

Un valor umbral muy común es $\theta=0.5$ . Obsérvese que si utilizamos este umbral y luego evaluamos la precisión a lo largo de muchas predicciones $\widehat{q}_i$ (como arriba) y los resultados correspondientes $y_i$ entonces llegamos exactamente a la pérdida por clasificación errónea según Buja et al. Por lo tanto, la pérdida por clasificación errónea tampoco es una regla de puntuación, sino una evaluación de la clasificación.

Si tomamos un algoritmo de clasificación como el anterior, podemos convertir una evaluación de clasificación en una regla de puntuación. La cuestión es que necesitamos los supuestos adicionales del clasificador. Y esa precisión o pérdida por clasificación errónea o cualquier otra evaluación de clasificación que elijamos puede entonces depender menos de la predicción probabilística $\widehat{q}$ y más sobre la forma en que giramos $\widehat{q}$ en una clasificación $\widehat{y}=\widehat{y}(\widehat{q},\theta)$ . Así que optimizar la evaluación de la clasificación puede ser perseguir una pista falsa si lo que realmente nos interesa es evaluar $\widehat{q}$ .

Ahora bien, ¿qué hay de incorrecto en estas reglas de puntuación bajo supuestos adicionales? Nada, en este caso. $\widehat{q}=\eta$ bajo la implícita $\theta =0.5$ maximizará la precisión y minimizará la pérdida por clasificación errónea en todos los casos posibles. $\widehat{q}\in(0,1)$ . Así que en este caso, nuestra regla de puntuación bajo supuestos adicionales es correcta.

Tenga en cuenta que lo que es importante para la precisión o la pérdida de clasificación errónea es sólo una cuestión: clasificamos ( $\widehat{y}$ ) todo como la clase mayoritaria o no? Si lo hacemos, la precisión o la pérdida por clasificación errónea son felices. Si no, no lo están. Lo importante de esta cuestión es que sólo tiene una relación muy tenue con la calidad de la clasificación. $\widehat{q}$ .

Por consiguiente, nuestras reglas de puntuación bajo supuestos adicionales no son estrictamente adecuado, como cualquier $\widehat{q}\geq\theta$ conducirán a la misma evaluación de la clasificación. Podríamos utilizar la norma $\theta=0.5$ , creen que la clase mayoritaria se da con $\widehat{q}=0.99$ y clasificar todo como la clase mayoritaria, porque $\widehat{q}\geq\theta$ . La precisión es alta, pero no tenemos ningún incentivo para mejorar. $\widehat{q}$ al valor correcto de $\eta$ .

O podríamos haber realizado un análisis exhaustivo de los costes asimétricos de la clasificación errónea y decidido que lo mejor umbral de probabilidad de clasificación en realidad debería ser $\theta =0.2$ . Por ejemplo, esto podría ocurrir si $y=1$ significa que padeces alguna enfermedad. Puede que sea mejor tratarte aunque no padezcas la enfermedad ( $y=0$ ), y no al revés, por lo que podría tener sentido tratar a las personas aunque la probabilidad prevista sea baja (pequeña $\widehat{q}$ ) lo sufren. Podríamos entonces tener un modelo terriblemente erróneo que cree que la verdadera clase mayoritaria sólo se da con $\widehat{q}=0.25$ - pero debido a los costes de la clasificación errónea, seguimos clasificando todo como esta (supuesta) clase minoritaria, porque de nuevo $\widehat{q}\geq\theta$ . Si hiciéramos esto, la pérdida de precisión o de clasificación errónea nos haría creer que lo estamos haciendo todo bien, aunque nuestro modelo predictivo ni siquiera acierte cuál de nuestras dos clases es la mayoritaria.

Por lo tanto, la pérdida de precisión o de clasificación errónea puede ser engañosa.

Además, la precisión y la pérdida por clasificación errónea son impropio bajo los supuestos adicionales en situaciones más complejas en las que los resultados no son iid. Frank Harrell, en su blog Daños causados por la precisión de la clasificación y otras reglas discontinuas de puntuación inadecuada de la precisión cita un ejemplo de uno de sus libros en el que el uso de pérdidas por precisión o clasificación errónea conducirá a un modelo mal especificado, ya que son no optimizada por la probabilidad predictiva condicional correcta.

Otro problema de las pérdidas por precisión y clasificación errónea es que son discontinuas en función del umbral $\theta$ . Frank Harrell también se ocupa de esto.

Más información en ¿Por qué la precisión no es la mejor medida para evaluar los modelos de clasificación? .

Lo esencial

No utilices la precisión. Ni la pérdida por clasificación errónea.

El nitpick: "estricto" frente a "estrictamente"

¿Debemos hablar de reglas de puntuación "estrictas" o de reglas de puntuación "estrictamente" adecuadas? "Estrictas" modifica "adecuadas", no "reglas de puntuación". (Existen "reglas de puntuación adecuadas" y "reglas de puntuación estrictamente adecuadas", pero no "reglas de puntuación estrictas"). Como tal, "estrictamente" debería ser un adverbio, no un adjetivo, y debería utilizarse "estrictamente". Como es más habitual en la literatura, por ejemplo, en los artículos de Tilmann Gneiting.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X