Tengo un set de prueba de 100 casos y dos clasificadores.
Me genera predicciones y las AUC ROC, la sensibilidad y especificidad de ambos clasificadores.
Pregunta 1: ¿Cómo puedo calcular el p-valor para comprobar si uno es significativamente mejor que la de los otros con respecto a todos los puntajes (AUC ROC, sensibilidad, especificidad)?
Ahora, para el mismo conjunto de pruebas de 100 casos, he diferente e independiente de la característica de las asignaciones para cada caso. Esto es debido a mis características son fijas, sino subjetiva y por múltiples (5) de los sujetos.
Así que, he evaluado a mis dos clasificadores de nuevo por 5 "versiones" de mi juego de pruebas y obtuvieron 5 ROC miembros de las auc, 5 sensibilidades y 5 especificidades de ambos clasificadores. Entonces, yo calcula la media de cada medida de rendimiento para 5 sujetos (media de AUC ROC, la media de la sensibilidad y la media de especificidad) para ambos clasificadores.
Pregunta 2: ¿Cómo puedo calcular el p-valor para comprobar si uno es significativamente mejor que la de los otros con respecto a la media de las puntuaciones (media de AUC ROC, sensibilidad media, la media de la especificidad)?
Respuestas con algún ejemplo de python (preferiblemente) o código de MatLab son más que bienvenidos.