¿Cuál es su opinión sobre el sobremuestreo en la clasificación en general, y el algoritmo SMOTE en particular? ¿Por qué no aplicaríamos simplemente un costo / penalización para ajustar el desequilibrio en los datos de clase y cualquier costo desequilibrado de los errores? Para mis propósitos, la precisión de la predicción a un futuro conjunto de unidades experimentales es la medida definitiva.
Como referencia, el documento de SMOTE: http://www.jair.org/papers/paper953.html