He creado dos modelos de aprendizaje automático y quiero realizar pruebas de significación en los resultados de varias métricas (sensibilidad, especificidad, kappa de Cohen, etc.) para ver si hay diferencias estadísticamente significativas en los resultados.
Mi conjunto de datos tiene 500 casos, y de ellos, una función de muestreo aleatorio elige 400 casos para entrenar cada uno de los modelos y los modelos se prueban en los 100 casos restantes. Por lo tanto, es necesario realizar una comparación por pares, ya que los modelos se prueban en los mismos 100 casos. Este proceso se repite 1.000 veces.
-
Ahora tengo 1000 valores de sensibilidad, etc. para cada uno de los dos modelos - ¿qué prueba debo utilizar para compararlos y obtener un valor p?
-
He leído artículos que utilizan Rango con signo de Wilcoxon pruebas - ¿podría hacerlo?
-
¿El hecho de que la división aleatoria tren-prueba se produzca 1.000 veces obliga a realizar una corrección estadística?