6 votos

¿Puede utilizarse un clasificador entrenado con datos sobremuestreados para clasificar datos desequilibrados?

Estoy desarrollando un modelo de bosque aleatorio para predecir transacciones fraudulentas con tarjetas de crédito. He hecho una división de entrenamiento y prueba en mi conjunto de datos, y finalmente he elegido un modelo a través de diferentes métricas, incluyendo la precisión, la recuperación y el AUC. Antes, he tenido problemas debido a conjuntos de datos extremadamente desequilibrados (sólo un 2% de transacciones fraudulentas). Después de un sobremuestreo, he utilizado un conjunto de datos 50%/50% fraude/no fraude para entrenar mi modelo. Ahora, este modelo, y su clasificador ajustado, se utilizarán en modo de producción. ¿Es legítimo utilizar este clasificador, entrenado con un conjunto de datos equilibrado, aunque las transacciones que vaya a clasificar sean en su mayoría no fraudulentas? ¿No estará sesgado hacia la clasificación de transacciones como fraudulentas?

EDITAR:

Para evaluar mi modelo (implementado en scikit-learn) estaba utilizando las puntuaciones obtenidas de la división train test proporcionada como método integrado. Me di cuenta de que esto podría estar proporcionando puntuaciones optimistas de precisión, recall y AUC, y probablemente estaba sobreajustando el modo. Por lo tanto, decidí utilizar scikit-learn k-fold cross validation. Los resultados obtenidos con este método son mucho peores. Por ejemplo, la recuperación solía ser del 69% cuando se evaluaba el modelo con los datos de prueba, pero es del 18% cuando se utiliza la validación cruzada de 5 pliegues (media de las puntuaciones de recuperación por iteración). Esto mejora un poco si modifico el parámetro class_weight a {0:0.99, 1:0.01}, pero creo que esto no tiene sentido, ya que penaliza los errores en la clasificación de 0 como 0 y no al revés, es decir, para los eventos más infrecuentes (1 o positivos). ¿Significa esto que mi modelo está sobreajustado? ¿Qué medida es más precisa para evaluar el rendimiento de mi modelo en el mundo real? ¿Tiene sentido utilizar la validación cruzada con bosques aleatorios?

2voto

bcmoney Puntos 121

Se trata de una cuestión interesante que se plantea a menudo en los datos médicos. Una de las formas de entender el sobremuestreo y la clasificación de datos no equilibrados es que, dado que el sobremuestreo es un sesgo activo del muestreo de los datos, los resultados estarán sesgados. Al compensar la clase minoritaria, recuerde que el objetivo de la clasificación es identificar las características que pueden determinar a qué clase puede pertenecer un resultado y, a continuación, abordar cómo interactúan las variables independientes.

Cuando sobremuestree datos para la clasificación, recuerde utilizar correctamente la validación cruzada y sobremuestrear los datos durante la validación cruzada en lugar de antes de la validación cruzada. Esto le dará mejores (más precisas) puntuaciones con sensibilidad y especificidad y limitará (aunque no eliminará) el efecto de sesgo y sobreajuste debido al uso incorrecto de la validación cruzada y el sobremuestreo.

He aquí una buena referencia sobre los nacimientos prematuros: http://www.marcoaltini.com/blog/dealing-with-imbalanced-data-undersampling-oversampling-and-proper-cross-validation

1voto

Erin Drummond Puntos 154

Si su clasificador funciona bien en el modo de producción, es legítimo utilizarlo. Puedes construirlo con el método que quieras.

Trabajar con un conjunto de datos equilibrado es una buena forma de construir un modelo que difiera entre las clases mayoritarias y minoritarias. Sin embargo, como habéis señalado @akash87 y tú, podría causar un sesgo.

Puede que haya tenido suerte y, a pesar del sesgo, su modelo funcione bien con los datos de producción. Para saberlo, evalúelo también en el conjunto de datos original. Para conocer el uso de diferentes conjuntos de datos para aprender y validar, véase aquí

En el escenario más común, el sesgo perjudica el rendimiento y debe adaptar el modelo de nuevo a la distribución de producción. Puede adaptar su modelo de nuevo a la distribución de producción aprendiendo un nuevo modelo que hará esta adaptación. Para obtener más información, consulte aquí .

Quizá le interese esto Editorial: Número especial sobre el aprendizaje a partir de conjuntos de datos desequilibrados y Aprender de datos desequilibrados

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X