Esto va a ser una pregunta tonta suavemente:
¿Cuál es la mejor manera de explicar por qué $\text{Precision} + \text{Recall}$ es no una buena medida, dicen, en comparación con F1?
Esto va a ser una pregunta tonta suavemente:
¿Cuál es la mejor manera de explicar por qué $\text{Precision} + \text{Recall}$ es no una buena medida, dicen, en comparación con F1?
No es que $\text{Precision} + \text{Recall}$ es una mala medida de por sí, es sólo que, por su propia cuenta, el número resultante no representan nada significativo. Usted está en el camino correcto, aunque... lo que estamos buscando es un combinado, el promedio de las dos medidas de rendimiento ya que no quiero tener que elegir entre ellos.
Recordemos que la precisión y el recall se define como:
$$\text{Precision} = \frac{\text{True Positive}}{\text{Predicted Positive}}$$ $$\text{Recall} = \frac{\text{True Positive}}{\text{Actual Positive}}$$
Ya que ambos tienen denominadores diferentes, añadiendo los resultados en algo como esto: $$\frac{\text{True Positive}\left(\text{Predicted Positive}+\text{Actual Positive}\right)}{\text{Predicted Positive}\times \text{Actual Positive}}$$ ... que no es particularmente útil.
Permite volver a la adición de ellos juntos, y hacer un tweak: multiplicar por $\frac{1}{2}$, de modo que son la estancia en la escala correcta, $[0-1]$. Esto es el familiar promedio de ellos.
$$ \frac{1}{2} \times \left( \frac{\text{Verdadero Positivo}}{\text{predicción Positiva}} + \frac{\text{Verdadero Positivo}}{\text{Real Positivo}} \right) $$
Por lo tanto, tenemos dos cantidades, que tienen el mismo numerador, pero denominadores diferentes y nos gustaría tomar el promedio de ellos. Qué vamos a hacer? Bien podríamos voltéelos, tome su inversa. Entonces usted podría agregar juntos. Por lo que son "lado derecho", de tomar el inverso de nuevo.
Este proceso de inversión y, a continuación, la inversión se convierte de nuevo en un "regular" significa que en una media armónica. Se da la circunstancia de que la media armónica de la precisión y el recall es la F1-estadística. La media armónica es generalmente utilizado en lugar de la estándar de la media aritmética cuando se trata con las tasas, como estamos haciendo aquí.
En el final de la F1 estadística es sólo el promedio de la precisión y el recall, y utilizarlo porque usted no quiere elegir uno o el otro para evaluar el desempeño de la modelo.
La respuesta corta es: no es de esperar que la suma de los dos porcentajes que tienen dos denominadores diferentes tiene ningún significado en particular. Por lo tanto, el enfoque para tomar una medida promedio tales como F1, F2 o F0.5. El último retener al menos la propiedad de un porcentaje. ¿Qué acerca de su significado, aunque?
La belleza de la Precisión y el Recall como medidas separadas es su facilidad de interpretación y el hecho de que pueden ser fácilmente confrontado con el modelo de negocio de los objetivos. La precisión mide el porcentaje de true positives
de los casos clasificados como positive
por el modelo. Recordar que mide el porcentaje de true positives
encontrado por el modelo de todas las true
de los casos. Para muchos problemas, usted tendrá que elegir entre la optimización de cualquiera de Precisión o Recordar.
Cualquier medida promedio pierde la interpretación anterior y se reduce a medida que usted prefiera. F1 significa que usted no sabe si usted prefiere Recordar o de Precisión, o adjuntar el mismo peso a cada uno de ellos. Si usted considera que Recuerdan más importante que la Precisión, entonces usted también debe asignar un mayor peso en el cálculo del promedio (e.g F2), y viceversa (e.g F0.5).
Agregar los dos es una mala medida. Usted obtendrá una puntuación de al menos 1 Si usted la bandera todo como positivo, ya que es una memoria de 100% por definición. Y obtendrá un poco golpe de precisión encima de eso. La media geométrica utilizada en la F1 hace hincapié en el eslabón más débil, ya que es multiplicativa; tienes que por lo menos está bien con la precisión y memoria para conseguir una puntuación decente de F1.
F1 score es especialmente valioso en el caso de gravemente asimétrica de probabilidades.
Considere el siguiente ejemplo: una rara pero peligrosa enfermedad. Supongamos que en una ciudad de 1.000.000 de personas sólo 100 están infectados.
Prueba a detecta todas estas 100 positivos. Sin embargo, también tiene el 50% de tasa de falsos positivos: erróneamente se muestra otra 500.000 personas a estar enfermo.
Mientras tanto, la prueba B pierde el 10% de los infectados, pero sólo le da 1.000 falsos positivos (0.1% tasa de falsos positivos)
Vamos a calcular las puntuaciones. Para probar Una, la precisión será efectivamente 0; recuerdo será exactamente 1. Para la prueba B, precisión todavía va a ser bastante pequeño, de aproximadamente 0,01. Recuerdo será igual a 0.9.
Si nos ingenuamente suma o tomar la media aritmética de precisión y recall, esto le dará 1 (0.5) para probar Una y 0.91 (0.455) para la prueba de B. por tanto, la prueba de Un parecería un poco mejor.
Sin embargo, si miramos desde un punto de vista práctico, la prueba es inútil: si una persona es positivo, su oportunidad de ser verdaderamente enfermo es de 1 en 50.000! Prueba B tiene más importancia en la práctica: usted puede tomar 1.100 personas al hospital y observar de cerca. Esto se reflejaba con exactitud en F1 score: para probar Una será cerca 0.0002, para la prueba B: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, que todavía es bastante pobre, pero alrededor de 50 veces mejor.
Este partido entre la puntuación de valor y de importancia en la práctica es lo que hace de F1 score valioso.
En general, maximizar la media geométrica hace hincapié en los valores similares. Por ejemplo, tomar dos modelos: el primero tiene (precisión, memoria) = (0.8, 0.8) y la segunda (de precisión, memoria) = (0.6, 1.0). Utilizando la media algebraica, ambos modelos sería equivalentes. Utilizando la media geométrica, el primer modelo es mejor porque él no comercio precisión para recuperarlas.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.