Processing math: 100%

3 votos

¿Por qué la prueba de dos muestras me está dando resultados inconsistentes?

Estoy aplicando una prueba t de dos muestras para determinar si tenemos regresiones de software en las medidas de latencia.

Procedimiento

  1. Ejecutar la prueba para la versión b1 y recopilar 60 medidas de latencia.
  2. Ejecutar la prueba para la versión b2 y recopilar 60 medidas de latencia.
  3. Calcular la media, desviación estándar, para b1 y b2 por separado.
  4. Calcular el puntaje de la prueba t usando esta fórmula: t=¯X1¯X2s21n1+s22n2
  5. Interpretar el puntaje
  6. Volver a ejecutar la prueba para la versión b2 (llamada b2*) y recopilar otras 60 medidas de latencia (para verificar la consistencia)
  7. Calcular el puntaje de la prueba para b2*.

Aprendí sobre esta prueba en mi libro de estadísticas de ingeniería pero también la vi sugerida en esta pregunta.

No estoy seguro si es relevante, pero la variabilidad debería ser relativamente consistente ya que estoy usando un sistema operativo en tiempo real.

Problema

Después de recolectar resultados para b1, realicé el experimento para b2 dos veces (b2 y b2*) para poder realizar 2 cálculos de prueba de dos muestras separadas (b1/b2 y b1/b2*). El primer conjunto de datos de b2 me dio un resultado de -3.6 (b1/b2). Cuando volví a correr la prueba en b2, re-calcule un puntaje de prueba de dos muestras de -2.6 (b1/b2*). Esperaba que el resultado fuera más comparable. -2.6 parece una gran diferencia respecto a -3.6.

Pregunta

¿Qué me dice eso? ¿No se está capturando la distribución con 60 muestras? ¿Esta prueba no es apropiada aquí? ¿-3.6 no es una gran diferencia respecto a -2.6?

Pensé que la diferencia entre un puntaje de -3.6 y -2.6 es bastante grande, así que estoy un poco confundido sobre si estoy abordando esto de la manera correcta.

Aclaración

  1. Cuando hablas de una significancia de -3.6 y -2.6, ¿te refieres al estadístico t u otras cantidades?

Me refiero al estadístico t. El valor resultante de este cálculo es:

t=¯X1¯X2s21n1+s22n2

  1. Cuando dices que vuelves a ejecutar la prueba, ¿recopilas 60 muestras de tiempo de latencia adicionales de tu versión actual para compararlas con las de la versión anterior, o hiciste algo más?

En mi procedimiento (editado) repetí los pasos 2-5 pero no utilicé las mediciones antiguas obtenidas en el paso 2 de la prueba anterior. La razón por la que hice esto fue para ver si mis resultados serían consistentes. Quería validar mi enfoque.

Estoy confundido por esta pregunta, porque parece preguntar por qué obtuviste dos resultados diferentes con dos conjuntos de datos diferentes: seguramente eso no requiere explicación. Entonces, ¿cómo estoy entendiendo mal o interpretando mal?

Creo que estoy tomando dos muestras de la misma distribución (para la versión b2) y que los resultados que obtengo entre ellas deberían ser muy comparables ya que estoy tomando un tamaño de muestra de 60. Me parece que obtener un resultado de -2.6 es significativamente diferente que un puntaje de -3.6 que corresponde a niveles de confianza de (0,0046 y 0,00016 respectivamente). ¿No es eso una diferencia de un orden de magnitud en confianza? ¿No debería obtener resultados repetibles al volver a ejecutar la prueba?

4voto

jasonmray Puntos 1303

El estadístico t para cada repetición de la prueba bajo la construcción b2 debe seguir, aproximadamente, una distribución t no central con un poco menos de 2×(601)=118 grados de libertad (sugieres que las varianzas deben ser aproximadamente iguales); y esto se aproximará bien por una distribución gaussiana con varianza unitaria. Por lo tanto, si los parámetros de no centralidad son iguales, su diferencia debería seguir, de nuevo aproximadamente, una distribución gaussiana con media cero y una varianza de dos, y la magnitud de la diferencia será mayor que uno (la diferencia que observaste) con una probabilidad cercana a la mitad. No hay nada sorprendente en tus resultados (aunque aún sería sensato mirar gráficos de los tiempos de latencia).

Tu intuición quizás está equivocada; escribes:—

Creo que estoy tomando dos muestras de la misma distribución (para la construcción b2) y que los resultados que obtengo entre ellas deberían ser muy comparables ya que estoy tomando un tamaño de muestra de 60.

Los resultados—las diferencias en las medias de muestra a partir de la media de muestra para la construcción b1—deberían ser en efecto comparables si las muestras de la construcción b2 son de la misma distribución, y tenderán a acercarse si aumentas el tamaño de muestra (las varianzas de las medias de muestra disminuyen); los estadísticos t, por otro lado, ya están escalados por estimaciones de las varianzas de las medias de muestra, por lo que no tenderán a acercarse.


Si te preocupa que las condiciones puedan variar entre lotes de mediciones de latencia (diferentes horas del día, interferencia de otros procesos en ejecución, etc.), considera un modelo mixto.

La evaluación de si tus tamaños de muestra proporcionan pruebas lo suficientemente potentes o intervalos de confianza lo suficientemente estrechos es el dominio del análisis de potencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X