22 votos

¿Cómo se llama este gráfico que muestra las tasas de falsos y verdaderos positivos y cómo se genera?

La imagen siguiente muestra una curva continua de tasas de falsos positivos frente a tasas de verdaderos positivos:

enter image description here

Sin embargo, lo que no entiendo de inmediato es cómo se calculan estas tasas. Si un método se aplica a un conjunto de datos, tiene un determinado índice FP y un determinado índice FN. ¿No significa eso que cada método debería tener un único punto en lugar de una curva? Por supuesto que hay múltiples maneras de configurar un método, produciendo múltiples puntos diferentes, pero no me queda claro cómo existe este continuo de tasas o cómo se genera.

28voto

OscarRyz Puntos 82553

La trama es Curva ROC y se calculan los puntos (Tasa de falsos positivos, Tasa de verdaderos positivos) para distintos umbrales. Suponiendo que se tiene una función de utilidad uniforme, el valor óptimo del umbral es el del punto más cercano a (0, 1).

21voto

Franck Dernoncourt Puntos 2128

Para generar curvas ROC (= Receiver Operating Characteristic curves):

Supongamos que tenemos un clasificador probabilístico binario, como la regresión logística. Antes de presentar la curva ROC, el concepto de matriz de confusión debe entenderse. Cuando hacemos una predicción binaria, puede haber 4 tipos de errores:

  • Predecimos 0 mientras que deberíamos tener la clase es en realidad 0: esto se llama un Verdadero Negativo es decir, predecimos correctamente que la clase es negativa (0). Por ejemplo, un antivirus no detectó como virus un archivo inofensivo .
  • Predecimos 0 mientras que deberíamos tener la clase es en realidad 1: esto se llama un Falso negativo es decir, predecimos incorrectamente que la clase es negativa (0). Por ejemplo, un antivirus no detectó un virus.
  • Predecimos 1 mientras que deberíamos tener la clase es en realidad 0: esto se llama un Falso positivo es decir, predecimos incorrectamente que la clase es positiva (1). Por ejemplo, un antivirus consideró que un archivo inofensivo era un virus.
  • Predecimos 1 mientras que deberíamos tener la clase es en realidad 1: esto se llama un Verdadero positivo es decir, predecimos correctamente que la clase es positiva (1). Por ejemplo, un antivirus detecta correctamente un virus.

Para obtener la matriz de confusión, repasamos todas las predicciones realizadas por el modelo y contamos cuántas veces se produce cada uno de esos 4 tipos de errores:

enter image description here

En este ejemplo de matriz de confusión, entre los 50 puntos de datos clasificados, 45 están correctamente clasificados y los 5 están mal clasificados.

Dado que para comparar dos modelos diferentes suele ser más conveniente disponer de una única métrica que de varias, calculamos dos métricas a partir de la matriz de confusión, que más tarde combinaremos en una sola:

  • Tasa de verdaderos positivos ( TPR ), alias. sensibilidad, índice de aciertos y retirada que se define como TPTP+FN . Intuitivamente, esta métrica corresponde a la proporción de puntos de datos positivos que se consideran correctamente positivos, con respecto a todos los puntos de datos positivos. En otras palabras, cuanto mayor sea la TPR, menos puntos de datos positivos pasaremos por alto.
  • Tasa de falsos positivos ( FPR ), alias. lluvia radiactiva que se define como FPFP+TN . Intuitivamente, esta métrica corresponde a la proporción de puntos de datos negativos que se consideran erróneamente positivos, con respecto a todos los puntos de datos negativos. En otras palabras, cuanto mayor sea FPR, más puntos de datos negativos clasificaremos erróneamente.

Para combinar la FPR y la TPR en una sola métrica, primero calculamos las dos métricas anteriores con muchos umbrales diferentes (por ejemplo 0.00;0.01,0.02,,1.00 ) para la regresión logística y, a continuación, trazarlos en un único gráfico, con los valores FPR en las abscisas y los valores TPR en las ordenadas. La curva resultante se denomina curva ROC:

enter image description here

En esta figura, la zona azul corresponde al área bajo la curva del Receiver Operating Characteristic (AUROC). La línea discontinua de la diagonal nos presenta la curva ROC de un predictor aleatorio: tiene un AUROC de 0,5. El predictor aleatorio se suele utilizar como línea de base para ver si el modelo es útil.

Si quieres tener una experiencia de primera mano:

9voto

user777 Puntos 10934

La respuesta de Morten responde correctamente a la pregunta del título: la figura es, efectivamente, una curva ROC. Se obtiene trazando una secuencia de tasas de falsos positivos (FPR) frente a sus correspondientes tasas de verdaderos positivos.

Sin embargo, me gustaría responder a la pregunta que planteas en el cuerpo de tu post.

Si un método se aplica a un conjunto de datos, tiene un determinado índice FP y un determinado índice FN. ¿No significa eso que cada método debería tener un único punto en lugar de una curva? Por supuesto que hay múltiples maneras de configurar un método, produciendo múltiples puntos diferentes, pero no me queda claro cómo existe este continuo de tasas o cómo se genera.

Muchos métodos de aprendizaje automático tienen parámetros ajustables. Por ejemplo, el resultado de una regresión logística es una probabilidad prevista de pertenencia a una clase. Una regla de decisión para clasificar todos los puntos con probabilidades predichas por encima de cierto umbral en una clase, y el resto en otra, puede crear una gama flexible de clasificadores, cada uno con diferentes estadísticas TPR y FPR. Lo mismo se puede hacer en el caso de los bosques aleatorios, donde se consideran los votos de los árboles, o SVM, donde se considera la distancia con signo desde el hiperplano.

En el caso de que esté realizando una validación cruzada para estimar el rendimiento fuera de la muestra, la práctica típica es utilizar los valores de predicción (votos, probabilidades, distancias con signo) para generar una secuencia de TPR y FPR. Esto suele parecerse a una función escalonada, porque normalmente sólo hay un punto que pasa de TP a FN o de FP a FN, en cada valor predicho (es decir, todos los valores predichos fuera de la muestra son únicos). En este caso, aunque existe un continuo de opciones para calcular TPR y FPR, las funciones TPR y FPR no serán continuas porque sólo hay un número finito de puntos fuera de la muestra, por lo que las curvas resultantes tendrán un aspecto escalonado.

1voto

rocket_ron Puntos 1

De Wikipedia:

La curva ROC fue desarrollada por primera vez por ingenieros eléctricos y de radares durante la Segunda Guerra Mundial para detectar objetos enemigos en los campos de batalla y pronto se introdujo en la psicología para dar cuenta de la detección perceptiva de estímulos. Desde entonces, el análisis ROC se ha utilizado en medicina, radiología, biometría y otras áreas durante muchas décadas, y cada vez se emplea más en la investigación sobre aprendizaje automático y minería de datos.

La ROC también se conoce como curva característica operativa relativa, porque es una comparación de dos características operativas (TPR y FPR) a medida que cambia el criterio.

Se puede pensar en los dos ejes como costes en los que hay que incurrir para que funcione el clasificador binario. Lo ideal es obtener una tasa de falsos positivos lo más baja posible a cambio de una tasa de verdaderos positivos lo más alta posible. Es decir, queremos que el clasificador binario obtenga el menor número posible de falsos positivos con el mayor número posible de verdaderos positivos.

Para concretar, imaginemos un clasificador capaz de detectar si existe una determinada enfermedad midiendo la cantidad de algún biomarcador. Imaginemos que el biomarcador tuviera un valor comprendido entre 0 (ausente) y 1 (saturado). ¿Qué nivel maximiza la detección de la enfermedad? Podría darse el caso de que, por encima de cierto nivel, el biomarcador clasificara a algunas personas como portadoras de la enfermedad, aunque no la tuvieran. Se trata de falsos positivos. Luego, por supuesto, hay quienes serán clasificados como enfermos cuando en realidad tienen la enfermedad. Estos son los verdaderos positivos.

El ROC evalúa la proporción de verdaderos positivos de todos los positivos frente a la proporción de falsos positivos teniendo en cuenta todos los valores de umbral posibles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X