Me han realizado la clasificación de uso de múltiples clasificadores para un 2-clases de etiquetado de datos, y la he usado 5 veces validación cruzada. Para cada una de las veces he calculado tp, tn, fp y fn. A continuación, he calculado la exactitud, la precisión, recall y F-score para cada prueba. Mi pregunta es, cuando quiero que el promedio de los resultados, que tomó el promedio de las precisiones, pero puedo promedio de precisión, recall y F-score? O sería matemáticamente mal? P. S. Los conjuntos de datos utilizados en cada una de las veces están bien equilibrados en cuanto al número de instancias por clase.
Gracias.