Yo trabajo en un gran equipo de programación, y puedo ejecutar un conjunto de pruebas de rendimiento en cada cambio que se realiza en nuestro programa, que básicamente medir el tiempo que se necesita para ejecutar la prueba. Para cada cambio en el código, podemos ejecutar estas pruebas, y hemos de calcular si el cambio provocado que la prueba se ejecute más lentamente haciendo un two-sample t test (en contra de los resultados de la anterior cambio de código). Esto funciona decentemente, pero el problema es que sólo tenemos un pequeño número de muestras de puntos de datos, generalmente un 5 por prueba, por cambio de código. Hay alrededor de 400 mediciones individuales que nos rendimiento de la pista, así que podemos ver un poco de ruido en nuestros resultados (es decir, la prueba de t rendirá un pequeño valor de p para las pruebas de las que no son en realidad más rápido o más lento debido a que el cambio de código).
A pesar de que tenemos un pequeño número de puntos de muestreo en cada cambio de código, tenemos una gran historia de resultados. Quiero utilizar estos datos históricos para ayudarnos, pero no estoy seguro de cómo me puede. Un problema que me preocupa es que cualquier cambio de código puede causar que las pruebas de correr más rápido o más lento, por lo que sólo ciegamente la agregación de los datos históricos producirá un resultado pobre. Existen pruebas estadísticas que me ayude con esto?
Por un poco más de info: la Mayoría del tiempo cambios en el código no tiene ningún impacto en el rendimiento, y aquellos de entre ellos que hacen que las pruebas de rendimiento para correr más rápido o más lento hacerlo únicamente en un puñado de los más de 400 pruebas. Lo que significa que para cualquier prueba, podría ser de cientos de cambios en el código antes de un cambio realmente hace que la prueba se ejecute más rápido o más lento.
Para aclarar, quiero averiguar cuando un cambio de código en realidad causa de que la prueba se ejecute más rápido o más lento. ¿Qué opciones tengo?