Decir que tengo dos métodos de aprendizaje para una clasificación de problema, $A$$B$, y que estimo sus generalización de rendimiento con algo como repite validación cruzada o bootstrapping. A partir de este proceso puedo obtener una distribución de puntuaciones $P_A$ $P_B$ por cada método, a través de estas repeticiones (por ejemplo, la distribución de los valores de AUC ROC para cada modelo).
Mirando estas distribuciones, puede ser que $\mu_A \ge \mu_B$ pero $\sigma_A \ge \sigma_B$ (es decir, el esperado rendimiento de la generalización de $A$ es superior a la de $B$, pero que hay más incertidumbre sobre esta estimación).
Creo que este es el llamado sesgo de la varianza dilema en la regresión.
¿Qué métodos matemáticos puedo utilizar para comparar los $P_A$ $P_B$ y, finalmente, tomar una decisión informada sobre cuál es el modelo a utilizar?
Nota: en aras de la simplicidad, me estoy refiriendo a los dos métodos de $A$ $B$ aquí, pero estoy interesado en métodos que pueden ser utilizados para comparar la distribución de las puntuaciones de ~1000 métodos de aprendizaje (por ejemplo, a partir de una cuadrícula de búsqueda) y, finalmente, tomar una decisión final sobre el modelo a utilizar.