Esto es lo que hice en la final para obtener el intervalo de confianza y un valor de p:
Para el CI, lo hice, de hecho, utiliza bootstrap método propuesto por Andrea. He utilizado el arranque y survivalROC, funcionó muy bien (muchas gracias ).
Para el p-valor, yo al azar permutan las puntuaciones asignadas a las etiquetas de aproximadamente 10.000 veces (me encontré con esto en paralelo, debido a que se tome un poco de tiempo hacerlo en serie).
Después de 10.000 iteraciones tuve una distribución de miembros de las auc que se centra en aproximadamente 0.5. Para obtener un p-valor que resume el número total de miembros de las auc que eran más grandes que los de las AUC que he observado, es decir, 124 permutaciones tenido y AUC mayor que el de las AUC me observó con la "correcta" asociado a las etiquetas y las puntuaciones (lo que mi clasificador de escupir). Por lo tanto, mi p-valores se 124/10,000. Supongo que, dada la naturaleza de las AUC también puedo hacerlo de dos caras y ver cómo muchos miembros de las auc son menos de 1-observedAUC.
Para algunos de los otros métodos que me estaba comparando contra, me di cuenta de que necesitaba mucho más de 10,000 iteraciones para obtener miembros de las auc que fueron superiores a lo que he observado. Eso significa que los valores de p fueron siempre de cero. Para ayudar con eso, yo también calcula la extrema miembros de las auc que podría conseguir (por lo tanto, si yo di todo de mi puntajes más altos de la etiqueta X), por lo que, al menos, siempre hubo al menos uno de los valores más grandes de lo que he observado.
En la final, creo que el CI a ser la más informativa, sin embargo me pidieron para obtener un determinado valor de p para las AUC.