Estoy comparando cuatro algoritmos para el problema de la clasificación. Mi configuración actual del experimento es la siguiente
1) He dividido los datos en entrenamiento, validación y prueba
2) Ejecuto los cuatro algoritmos y obtengo los valores de las métricas de rendimiento (nDCG, MAP, Precisión, etc., un total de 5 métricas) para cada algoritmo en los datos de prueba y los almaceno.
3) Realizo el procedimiento anterior (1 y 2) 10 veces, y tengo el resultado para los cuatro algoritmos, para cada algoritmo una tabla de 50 valores (1o iteraciones y 5 métricas de rendimiento).
Ahora, me gustaría hacer la significación estadística de mi algoritmo frente a los otros tres algoritmos. Cuál es la mejor prueba para esto, y cómo hacerlo ?, y si hay un procedimiento readymade en matlab, R, python o octava, puede usted por favor me indican ?