4 votos

¿Entrenar al clasificador en un conjunto de datos equilibrado y aplicar en un conjunto de datos desequilibrado?

Tengo un etiquetado de entrenamiento conjunto de datos DS1 con 1000 entradas. Los objetivos (Verdadero/Falso) están casi equilibrados. Con sklearn, he intentado varios algoritmos, de los cuales el GradientBoostingClassifier funciona mejor con el F-Score ~0.83.

Ahora, tengo que aplicar el clasificador entrenado en un mal etiquetadas conjunto de datos DS2 con ~ 5 millones de entradas (y las mismas características). Sin embargo, para DS2, la distribución de destino se espera que sea altamente desequilibrada.

Es esto un problema? Será el modelo de reproducir la formación de distribución de destino de DS1 cuando se aplica en DS2?

Si sí, sería otro algoritmo más robusto?

Todo lo mejor, Greg

1voto

Desde mi entender, el saldo de la etiqueta del conjunto de datos no es importante y no debe tener ningún efecto; siempre y cuando el conjunto de datos de entrenamiento es representante de "datos del mundo real" (es decir, sin etiquetar de datos).

Lo importante es cómo la precisión del clasificador. Así, si el clasificador ha aprendido patrones significativos durante el entrenamiento, a continuación, que debe ser confirmado por la alta precisión a la hora de aplicar su clasificador a su conjunto de datos no etiquetados.

Si usted encuentra que la precisión es menor que el esperado, entonces le sugiero que:

  1. Su clasificador ha sido overfit a los datos de entrenamiento. (es decir, el clasificador de informes de alta precisión en el conjunto de entrenamiento porque es finamente sintonizado para encajar el conjunto de entrenamiento.)
  2. Que los datos utilizados para el entrenamiento, no es representativo de los datos en el conjunto de datos no etiquetados. (es decir, los patrones aprendidos durante el entrenamiento no puede ser bien aplicado en la etiqueta del conjunto de datos.)

0voto

Jeremy Taffel Puntos 16

Si su conjunto de entrenamiento está equilibrado, pero su conjunto de pruebas está desequilibrado, estará bien usando un modelo regular.

Sin embargo, como tiene un conjunto de pruebas desequilibrado, es posible que le interese más etiquetar correctamente las muestras de la clase minoritaria. Si encuentra que este es el caso después de su implementación, es posible que desee probar algunos enfoques específicos para conjuntos de datos desequilibrados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X