Estoy aplicando una prueba t de dos muestras para determinar si tenemos regresiones de software en las medidas de latencia.
Procedimiento
- Ejecutar la prueba para la versión b1 y recopilar 60 medidas de latencia.
- Ejecutar la prueba para la versión b2 y recopilar 60 medidas de latencia.
- Calcular la media, desviación estándar, para b1 y b2 por separado.
- Calcular el puntaje de la prueba t usando esta fórmula: t=¯X1−¯X2√s21n1+s22n2
- Interpretar el puntaje
- Volver a ejecutar la prueba para la versión b2 (llamada b2*) y recopilar otras 60 medidas de latencia (para verificar la consistencia)
- Calcular el puntaje de la prueba para b2*.
Aprendí sobre esta prueba en mi libro de estadísticas de ingeniería pero también la vi sugerida en esta pregunta.
No estoy seguro si es relevante, pero la variabilidad debería ser relativamente consistente ya que estoy usando un sistema operativo en tiempo real.
Problema
Después de recolectar resultados para b1, realicé el experimento para b2 dos veces (b2 y b2*) para poder realizar 2 cálculos de prueba de dos muestras separadas (b1/b2 y b1/b2*). El primer conjunto de datos de b2 me dio un resultado de -3.6 (b1/b2). Cuando volví a correr la prueba en b2, re-calcule un puntaje de prueba de dos muestras de -2.6 (b1/b2*). Esperaba que el resultado fuera más comparable. -2.6 parece una gran diferencia respecto a -3.6.
Pregunta
¿Qué me dice eso? ¿No se está capturando la distribución con 60 muestras? ¿Esta prueba no es apropiada aquí? ¿-3.6 no es una gran diferencia respecto a -2.6?
Pensé que la diferencia entre un puntaje de -3.6 y -2.6 es bastante grande, así que estoy un poco confundido sobre si estoy abordando esto de la manera correcta.
Aclaración
- Cuando hablas de una significancia de -3.6 y -2.6, ¿te refieres al estadístico t u otras cantidades?
Me refiero al estadístico t. El valor resultante de este cálculo es:
t=¯X1−¯X2√s21n1+s22n2
- Cuando dices que vuelves a ejecutar la prueba, ¿recopilas 60 muestras de tiempo de latencia adicionales de tu versión actual para compararlas con las de la versión anterior, o hiciste algo más?
En mi procedimiento (editado) repetí los pasos 2-5 pero no utilicé las mediciones antiguas obtenidas en el paso 2 de la prueba anterior. La razón por la que hice esto fue para ver si mis resultados serían consistentes. Quería validar mi enfoque.
Estoy confundido por esta pregunta, porque parece preguntar por qué obtuviste dos resultados diferentes con dos conjuntos de datos diferentes: seguramente eso no requiere explicación. Entonces, ¿cómo estoy entendiendo mal o interpretando mal?
Creo que estoy tomando dos muestras de la misma distribución (para la versión b2) y que los resultados que obtengo entre ellas deberían ser muy comparables ya que estoy tomando un tamaño de muestra de 60. Me parece que obtener un resultado de -2.6 es significativamente diferente que un puntaje de -3.6 que corresponde a niveles de confianza de (0,0046 y 0,00016 respectivamente). ¿No es eso una diferencia de un orden de magnitud en confianza? ¿No debería obtener resultados repetibles al volver a ejecutar la prueba?