Tengo un etiquetado de entrenamiento conjunto de datos DS1 con 1000 entradas. Los objetivos (Verdadero/Falso) están casi equilibrados. Con sklearn, he intentado varios algoritmos, de los cuales el GradientBoostingClassifier funciona mejor con el F-Score ~0.83.
Ahora, tengo que aplicar el clasificador entrenado en un mal etiquetadas conjunto de datos DS2 con ~ 5 millones de entradas (y las mismas características). Sin embargo, para DS2, la distribución de destino se espera que sea altamente desequilibrada.
Es esto un problema? Será el modelo de reproducir la formación de distribución de destino de DS1 cuando se aplica en DS2?
Si sí, sería otro algoritmo más robusto?
Todo lo mejor, Greg