TL;DR
La precisión es una regla de puntuación inadecuada. No la utilice.
La versión ligeramente más larga
En realidad, la precisión ni siquiera es una regla de puntuación. Así que preguntarse si es (estrictamente) adecuada es un error de categoría. Lo más que podemos decir es que bajo supuestos adicionales , la precisión es coherente con una regla de puntuación que es incorrecta, discontinua y engañosa. (No la utilice.)
Su confusión
Su confusión proviene del hecho de que la pérdida por clasificación errónea, según el artículo que cita, tampoco es una regla de puntuación.
Los detalles: reglas de puntuación frente a evaluaciones de clasificación
Fijemos la terminología. Estamos interesados en un resultado binario $y\in\{0,1\}$ y tenemos una predicción probabilística $\widehat{q} = \widehat{P}(Y=1)\in(0,1)$ . Sabemos que $P(Y=1)=\eta>0.5$ pero nuestro modelo $\widehat{q}$ puede o no saberlo.
A regla de puntuación es un mapeo que toma una predicción probabilística $\widehat{q}$ y un resultado $y$ a una pérdida,
$$ s\colon (\widehat{q},y) \mapsto s(\widehat{q},y). $$
$s$ es correcto si se optimiza en expectativa mediante $\widehat{q}=\eta$ . ("Optimizado" suele significar "minimizado", pero algunos autores invierten los signos e intentan maximizar una regla de puntuación). $s$ es estrictamente correcto si se optimiza en expectativa sólo por $\widehat{q}=\eta$ .
Normalmente evaluaremos $s$ en muchas predicciones $\widehat{q}_i$ y los resultados correspondientes $y_i$ y la media para estimar esta expectativa.
Ahora, ¿qué es precisión ? La precisión no toma como argumento una predicción probabilística. Se necesita una clasificación $\widehat{y}\in\{0,1\}$ y un resultado:
$$ a\colon (\widehat{y},y)\mapsto a(\widehat{y},y) = \begin{cases} 1, & \widehat{y}=y \\ 0, & \widehat{y} \neq y. \end{cases} $$
Por lo tanto, la precisión no es una regla de puntuación . Se trata de una evaluación de clasificación. (Es un término que acabo de inventar; no lo busques en la bibliografía).
Ahora, por supuesto podemos tomar una predicción probabilística como nuestra $\widehat{q}$ y convertirlo en una clasificación $\widehat{y}$ . Pero para ello necesitaremos los supuestos adicionales aludidos anteriormente. Por ejemplo, es muy habitual utilizar un umbral $\theta$ y clasificar:
$$ \widehat{y}(\widehat{q},\theta) := \begin{cases} 1, & \widehat{q}\geq \theta \\ 0, & \widehat{q}<\theta. \end{cases} $$
Un valor umbral muy común es $\theta=0.5$ . Obsérvese que si utilizamos este umbral y luego evaluamos la precisión a lo largo de muchas predicciones $\widehat{q}_i$ (como arriba) y los resultados correspondientes $y_i$ entonces llegamos exactamente a la pérdida por clasificación errónea según Buja et al. Por lo tanto, la pérdida por clasificación errónea tampoco es una regla de puntuación, sino una evaluación de la clasificación.
Si tomamos un algoritmo de clasificación como el anterior, podemos convertir una evaluación de clasificación en una regla de puntuación. La cuestión es que necesitamos los supuestos adicionales del clasificador. Y esa precisión o pérdida por clasificación errónea o cualquier otra evaluación de clasificación que elijamos puede entonces depender menos de la predicción probabilística $\widehat{q}$ y más sobre la forma en que giramos $\widehat{q}$ en una clasificación $\widehat{y}=\widehat{y}(\widehat{q},\theta)$ . Así que optimizar la evaluación de la clasificación puede ser perseguir una pista falsa si lo que realmente nos interesa es evaluar $\widehat{q}$ .
Ahora bien, ¿qué hay de incorrecto en estas reglas de puntuación bajo supuestos adicionales? Nada, en este caso. $\widehat{q}=\eta$ bajo la implícita $\theta =0.5$ maximizará la precisión y minimizará la pérdida por clasificación errónea en todos los casos posibles. $\widehat{q}\in(0,1)$ . Así que en este caso, nuestra regla de puntuación bajo supuestos adicionales es correcta.
Tenga en cuenta que lo que es importante para la precisión o la pérdida de clasificación errónea es sólo una cuestión: clasificamos ( $\widehat{y}$ ) todo como la clase mayoritaria o no? Si lo hacemos, la precisión o la pérdida por clasificación errónea son felices. Si no, no lo están. Lo importante de esta cuestión es que sólo tiene una relación muy tenue con la calidad de la clasificación. $\widehat{q}$ .
Por consiguiente, nuestras reglas de puntuación bajo supuestos adicionales no son estrictamente adecuado, como cualquier $\widehat{q}\geq\theta$ conducirán a la misma evaluación de la clasificación. Podríamos utilizar la norma $\theta=0.5$ , creen que la clase mayoritaria se da con $\widehat{q}=0.99$ y clasificar todo como la clase mayoritaria, porque $\widehat{q}\geq\theta$ . La precisión es alta, pero no tenemos ningún incentivo para mejorar. $\widehat{q}$ al valor correcto de $\eta$ .
O podríamos haber realizado un análisis exhaustivo de los costes asimétricos de la clasificación errónea y decidido que lo mejor umbral de probabilidad de clasificación en realidad debería ser $\theta =0.2$ . Por ejemplo, esto podría ocurrir si $y=1$ significa que padeces alguna enfermedad. Puede que sea mejor tratarte aunque no padezcas la enfermedad ( $y=0$ ), y no al revés, por lo que podría tener sentido tratar a las personas aunque la probabilidad prevista sea baja (pequeña $\widehat{q}$ ) lo sufren. Podríamos entonces tener un modelo terriblemente erróneo que cree que la verdadera clase mayoritaria sólo se da con $\widehat{q}=0.25$ - pero debido a los costes de la clasificación errónea, seguimos clasificando todo como esta (supuesta) clase minoritaria, porque de nuevo $\widehat{q}\geq\theta$ . Si hiciéramos esto, la pérdida de precisión o de clasificación errónea nos haría creer que lo estamos haciendo todo bien, aunque nuestro modelo predictivo ni siquiera acierte cuál de nuestras dos clases es la mayoritaria.
Por lo tanto, la pérdida de precisión o de clasificación errónea puede ser engañosa.
Además, la precisión y la pérdida por clasificación errónea son impropio bajo los supuestos adicionales en situaciones más complejas en las que los resultados no son iid. Frank Harrell, en su blog Daños causados por la precisión de la clasificación y otras reglas discontinuas de puntuación inadecuada de la precisión cita un ejemplo de uno de sus libros en el que el uso de pérdidas por precisión o clasificación errónea conducirá a un modelo mal especificado, ya que son no optimizada por la probabilidad predictiva condicional correcta.
Otro problema de las pérdidas por precisión y clasificación errónea es que son discontinuas en función del umbral $\theta$ . Frank Harrell también se ocupa de esto.
Más información en ¿Por qué la precisión no es la mejor medida para evaluar los modelos de clasificación? .
Lo esencial
No utilices la precisión. Ni la pérdida por clasificación errónea.
El nitpick: "estricto" frente a "estrictamente"
¿Debemos hablar de reglas de puntuación "estrictas" o de reglas de puntuación "estrictamente" adecuadas? "Estrictas" modifica "adecuadas", no "reglas de puntuación". (Existen "reglas de puntuación adecuadas" y "reglas de puntuación estrictamente adecuadas", pero no "reglas de puntuación estrictas"). Como tal, "estrictamente" debería ser un adverbio, no un adjetivo, y debería utilizarse "estrictamente". Como es más habitual en la literatura, por ejemplo, en los artículos de Tilmann Gneiting.