Tengo un conjunto de datos que se probó con diferentes lenguajes de programación / versiones del mismo algoritmo. Considero que son los tratamientos.
Quiero probar el efecto de los tratamientos, así que he recogido el tiempo de ejecución obtenido al utilizar un tratamiento con el mismo conjunto de datos que tiene 50k, 100k o 1M de filas, cada tamaño se procesó 5 veces con cada tratamiento (mismo conjunto de datos mismo tratamiento 5 veces), excepto en algunos casos en los que el conjunto de datos más grande se probó sólo una vez por tratamiento. Esto hace que mis datos sean emparejados (dependientes).
He seleccionado dos pruebas que pueden aplicarse a datos dependientes no paramétricos: Wilcoxon signed rank para dos muestras, y la prueba de Friedman para más de dos muestras.
Para la prueba de rangos con signo de Wilcoxon planeo hacerlo de esta manera:
a) ¿Podría utilizarse en MatLab?
[p,h] = signrank(java,python)
b) ¿Afecta en algo tener 5 tiempos de ejecución para exactamente el mismo conjunto de datos, luego otros 5 para un conjunto de datos mayor con la misma información excepto por los IDs (por ejemplo, continúa desde el ID 50 000, al 50 001, 50 0002, etc.), luego 1 tiempo de ejecución para el conjunto de datos 1M? o ¿está bien darle a MatLab dos vectores, cada uno formado por los datos en columnas?
Para la prueba de Friedman planeo hacerlo de esta manera:
c) ¿Podría utilizarse en MatLab?
p = friedman(data,5)
donde datos es toda la matriz mostrada en la imagen, y 5 por la repetición de 5 tiempos de ejecución por tamaño del conjunto de datos.
d) ¿Cómo puedo abordar la repetición en una prueba de dos muestras?
La nota final es que los resultados de cada prueba se van a utilizar por separado, de forma aislada.
Me costó llegar al punto en el que creo saber qué pruebas de hipótesis son adecuadas para los datos que tengo, pero aún tengo algunas dudas sobre su aplicación. Cualquier ayuda y comentario es muy apreciado.