TLDR; Contrariamente a la literatura que se remonta a una definición arbitraria propuesta, el uso de una $\beta$ término como OP sugiere es en realidad más intuitivo que el $\beta^2$ plazo.
Una persona La respuesta de $\beta^{2}$ dada la forma elegida por Van Rijsbergen para definir la importancia relativa de la precisión y la recuperación. Sin embargo, hay una consideración que falta en la literatura, y que yo argumento aquí: la definición elegida es poco intuitiva y poco natural, y si realmente se utilizara $F_\beta$ (en la práctica) la forma en que se define, rápidamente se quedaría pensando, "el efecto de $\beta$ parece mucho más agresivo que el valor que he elegido".
Para ser justos, es sobre todo el resumen de Wikipedia el que induce a error, ya que olvida mencionar la medida subjetiva de importancia implicada, mientras que Van Rijsbergen se limitó a presentar una posible definición sencilla, pero no necesariamente la mejor ni la más significativa.
Repasemos la definición elegida por Van Rijsbergen:
La forma más sencilla que conozco de cuantificar esto es especificar el $P/R$ relación en la que el usuario está dispuesto a cambiar un aumento de la precisión por una pérdida equivalente en la recuperación.
En general, si $R/P > \beta$ entonces un aumento de $P$ es más influyente que un aumento de $R$ mientras que $R$ es más influyente que $P$ donde $R/P < \beta$ . Pero he aquí por qué argumentaría que la ponderación es poco intuitiva. Cuando $P = R$ Aumento de $R$ son $\beta^2$ veces más eficaz que $P$ . (Esto puede calcularse a partir de las derivadas parciales proporcionadas en Una persona ) Cuando alguien dice "quiero que recall tenga una ponderación 3 veces más importante que la precisión", yo no me lanzaría a la definición que equivale a "la precisión se penalizará hasta que sea literalmente un tercio del valor de recall", y desde luego no esperaría que cuando precisión y recall sean iguales, recall contribuya 9 veces más. Eso no parece práctico en la mayoría de las situaciones en las que lo ideal es que tanto la precisión como la recuperación sean altas, sólo que una sea un poco más alta que la otra.
A continuación se muestra una representación visual de lo que $F_\beta$ parece. Las líneas rojas resaltan la relación $R/P = \beta$ y que las derivadas parciales de $F_\beta$ son iguales en esa relación, mostrada por las pendientes rojas sólidas.
Presentaré ahora una definición subjetiva alternativa, que equivale a "cuando la precisión y la recuperación son iguales, las mejoras en la recuperación valen la pena $\gamma$ veces más que las mejoras en precisión". Yo sostengo que esta definición es más intuitiva a la vez que igual de sencilla que la de Van Rijsbergen:
En $P = R$ set $\frac{\partial{F}/\partial{R}}{\partial{F}/\partial{P}} = \gamma$ donde $\gamma$ es la importancia relativa de mejoras en recall sobre precisión.
Sustituyendo las ecuaciones derivadas en Una persona la respuesta:
$\frac{1-\alpha}{(\frac{\alpha}{P}+ \frac{1-\alpha}{R})^{2}R^{2}} = \gamma \frac{\alpha}{(\frac{\alpha}{P}+ \frac{1-\alpha}{R})^{2}P^{2}}$
Recordando que $P = R$ esto se simplifica a:
$\gamma = \frac{1-\alpha}{\alpha}$ y $\alpha = \frac{1}{\gamma + 1}$ ,
en contraste con:
$\beta^2 = \frac{1-\alpha}{\alpha}$ y $\alpha = \frac{1}{\beta^2+1}$ según la formulación de Van Rijsbergen.
¿Qué significa esto? Un resumen informal:
- Definición de Van Rijsbergen $\Leftrightarrow$ recordar es $\beta$ veces más importante que la precisión en términos de valor .
- Mi propuesta de definición $\Leftrightarrow$ recordar es $\gamma$ veces más importante que la precisión en términos de mejora del valor .
- Ambas definiciones se basan en una media armónica ponderada de precisión y recuperación, y las ponderaciones de estas dos definiciones pueden corresponderse. En concreto, colocar $\beta = \sqrt{\gamma}$ veces la importancia en términos de valor equivale a colocar $\gamma$ veces la importancia en términos de mejora del valor.
- Se puede argumentar que el uso de un $\beta$ en lugar de $\beta^2$ es una ponderación más intuitiva.