Necesito un poco de ayuda para interpretar los resultados de la clasificación.
Tengo un conjunto de datos desequilibrados (80% = 0 20% = 1), el ajuste de los clasificadores (SVM, GradientBoosting o kNN) en tales datos no da buenos resultados (incluso utilizando la ponderación). Es decir, la precisión es muy buena, pero la clase minoritaria está clasificada erróneamente en su mayoría, como es de esperar.
Así que decidí equilibrar los datos del tren utilizando el submuestreo (el número de muestras es suficiente para hacerlo).
De esta manera introduzco sesgo de selección y obtengo buenos resultados de clasificación en datos de prueba (no equilibrados).
¿Puedo suponer que esos resultados son fiables?