5 votos

impacto a las AUC si el swap positivos y negativos durante el entrenamiento del modelo

Si yo intercambio positivo de la clase y clase negativa, luego el tren un modelo nuevo (traté de árbol de decisión, adaboost, svm de scikit-learn integrado en el paquete) para un problema de clasificación de dos clases. A veces, puedo ver las AUC cambiar ligeramente (alrededor de 1-2%). Alguien tiene alguna idea de por qué existen tales cambios?

Para la curva ROC, el eje x es la tasa de falsos positivos, y el eje y positivo verdadero ritmo. Cuando el modelo de predicción da la predicción de resultados, vamos a ordenar las puntuaciones de valor mayor a menor valor y, a continuación, elija el umbral de acuerdo a las ordenadas los valores y calcular en el umbral específico punto, ¿cuál es el fpr y tpr. El AUC es el área bajo ROC.

Por CIERTO, para swap, me refiero a asignar manualmente marca negativa a ser 1 y asignar manualmente positivo de la etiqueta como 0. Me estoy preguntando si me swap, si el área de las AUC puede cambiar?

Edición 1, aquí es cómo adaboost obras, confundido por lo que no es convergente? A partir de la fórmula, debe ser convergente. Referencia de este libro

enter image description here enter image description here enter image description here

3voto

choloboy7 Puntos 15

Hice esto para que podamos usar mi notebook como referencia:

https://github.com/csizsek/crossvalidated/blob/03ea088e0805bf550750d27735b38ebe1c9b567a/changing_roc_auc_score.ipynb

El conjunto de datos que se utiliza es un simple Ecoli clasificación de conjunto de datos. Se puede ver que puedo ejecutar la misma classificator dos veces con la etiqueta sin cambios, entonces puedo intercambiar las etiquetas y ejecutarlo de nuevo dos veces y las AUC ROC puntuación siempre es un poco diferente.

La razón por la que esto está ocurriendo es exactamente lo que @dsaxton dijo: que la mayoría de los algoritmos de clasificación (en este caso un Bosque Aleatorio) uso de algún tipo de azar de arranque o algo que es al azar y el resultado del modelo es siempre un poco diferente por lo que las predicciones y las AUC ROC puntuación es diferente.

1voto

Hoogendijk Puntos 45

Creo que uno puede mostrar que los algoritmos no son convergentes. Llegan a cerca de una solución y, a continuación, hacer una caminata aleatoria.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X