Parece haber consenso en que, si es posible, tanto el conjunto de entrenamiento como el de prueba para la clasificación binaria deben estar equilibrados entre las dos clases, especialmente si se utilizan clasificadores como SVM.
Aunque entiendo por qué es así en el juego de trenes, ¿por qué es necesario equilibrar el conjunto de pruebas? Según tengo entendido, cada muestra sería un problema independiente y se predeciría por sí sola, así que ¿por qué influiría la distribución general en la predicción?
Contexto práctico: Estoy trabajando en un problema biológico para el que tengo acceso a positivos y puedo "inventar" negativos para mi clasificador, y así puedo conseguir un conjunto de trenes perfectamente equilibrado. Sin embargo, la aplicación práctica en la vida real sería en conjuntos que contienen abrumadoramente más negativos que positivos debido a la naturaleza del problema.