7 votos

¿Cómo se puede optimizar un modelo de clasificación, cuando sólo se preocupan por el 5% superior de la Curva ROC?

Imaginar un escenario real donde sólo se permite adivinar entre el 0 y el 5% de la población total. Usted tiene que decir "Aquí creo que estas 5% de las personas tienen Un rasgo" y que no se les permite adivinar más que eso. La otra cosa es, sólo el 3-5% de las personas que tienen el rasgo de A. Así que no es necesariamente fácil rasgo de recoger.

Supongo que no me importa acerca de la totalidad de las AUC, sólo me importa acerca de las AUC entre 0.95 y 1.00.

Como un aparte, la mayoría de la modelización que yo hago es en R mediante el símbolo de intercalación, hay alguna configuración sencilla para ajustar en la métrica que sería muy apreciado:

model  <- train(  y = y, x = x
                , metric = "ROC"
                , method = "rpart"
                , trControl = 5FoldsClass
                )

5voto

usεr11852 Puntos 5514

El tema general de clasificación binaria con fuertemente desequilibrada clases ha sido portada a un cierto punto en el hilo con el mismo nombre. En muy breve: caret no permite más de desequilibrio apropiado métricas como kappa de Cohen o Precision-Recall de las AUC; el PRAUC es relativamente nuevo, usted puede encontrar que el uso de la prSummary métrica. Usted también puede tratar de remuestreo enfoques donde se reequilibrar la muestra durante la estimación para funciones de clase se vuelven más prominentes.

Habiendo dicho lo anterior, parece que tienes una limitación particular sobre el número total de positivos $N$, se pueden predecir. Puedo pensar en dos inmediata de soluciones. Ambos se basan en la idea de que usted está usando un clasificador probabilístico. Sencillamente, un clasificador probabilístico es una clasificación de rutina que puede dar salida a una medida de la creencia acerca de su predicción en la forma de una $[0,1]$ número decimal podemos intérprete como una probabilidad. Elástico de redes, Bosques Aleatorios y diversas conjunto de clasificadores ofrecen este generalmente fuera-de-la-caja. SVMs por lo general no ofrecen fuera-de-la-caja de probabilidades, pero usted puede obtener si usted está dispuesto a aceptar algunas aproximaciones. De todos modos, de nuevo a las soluciones:

  1. El uso de una métrica personalizada. En lugar de evaluar el área de debajo de toda la PR de la curva nos centramos en el área que garantiza un mínimo número de puntos. Estos son generalmente conocidos como los parciales de las AUC métricas. Ellos nos obligan a definir una costumbre de las métricas de rendimiento. Compruebe caret's trainControl summaryFunction argumento para más información sobre esto. Permítanme subrayar que usted no tiene que buscar definitivamente en una de las AUC. Teniendo en cuenta que podemos estimar las probabilidades en cada uno de los pasos de nuestro modelo de procedimiento de entrenamiento, se puede hacer una umbralización paso en el procedimiento de estimación de la derecha antes de la evaluación de nuestra métrica de rendimiento. Observe que en el caso que nos "fix $N$", mediante el retiro (Sensibilidad) valor de una métrica sería correcto, ya que inmediatamente de control por el hecho de que nos quieran $N$ puntos. (En realidad, en ese caso, el Recall y Precisión sería igual al número de Falsos Negativos, se podría equiparar el número de Falsos Positivos.)

  2. El umbral de la salida final. Dado que uno puede estimar las probabilidades de un elemento perteneciente a una clase en particular, podemos elegir los elementos con los $N$ más altas probabilidades relacionadas con la clase de interés. Esto es muy fácil de implementar, ya que, esencialmente, se aplica un umbral de derecho antes de informar a nuestros hallazgos. Se puede estimar modelos y evaluar el uso de nuestros favoritos de las métricas de rendimiento sin realmente los cambios en nuestro flujo de trabajo. Este es un planteamiento simplista, pero es la manera más fácil de satisfacer las restricciones. Si utilizamos este enfoque será probablemente más relevante para el uso de un AUC basado en las métricas de rendimiento originalmente. Eso es porque el uso de algo como la Precisión, Recall, etc. sugerimos el uso de un determinado umbral de $p$ (usualmente $0.5$) para el cálculo de las métricas necesarias para el modelo de formación - no queremos hacer eso, como no vamos a calibrar que $p$ el uso de este enfoque).

Una advertencia muy importante: necesitamos tener un biencalibrado clasificador probabilístico modelo para el uso de este enfoque; es decir,. necesitamos tener buena consistencia entre la predicción de la clase de probabilidades y la observó clase tasas (marque caret's de la función calibration ). De lo contrario nuestras ideas serán completamente cuando se trata de discriminar entre los elementos. Como sugerencia final yo le recomiendo que mires el levantamiento de curvas; que le permitirá ver qué tan rápido se puede encontrar un determinado número de ejemplos positivos. Dada la restricción impuesta probablemente los gráficos de elevación será muy informativo y probablemente quieren presentar al informar de sus hallazgos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X