4 votos

¿Cómo se mide la diferencia estadística entre dos medidas?

Estoy midiendo el tiempo de renderización en Stack Overflow, específicamente antes y después de los cambios.

Tengo datos como tales

pre_post | RouteName      | count | avg | st_dev | min |  max
---------+----------------+-------+-----+--------+-----+-----
1. pre   | Questions/Show | 24736 |  11 |     15 |   0 | 1004
2. post  | Questions/Show |   842 |  16 |     26 |   1 |  453

De esto me gustaría entender:

  1. ¿Las solicitudes son estadísticamente más lentas o más rápidas después del cambio, o no hay ningún cambio perceptible?
  2. ¿Cuántas mediciones necesito para tener una certeza razonable del punto 1.?

Este es el aspecto de los picos (después de la limpieza, los datos no son los mismos que los anteriores) nice peaks

Aquí hay un enlace a la datos en bruto .


Este es el aspecto de los datos brutos antes de la limpieza y la normalización twin peaks

0 votos

Disculpe si la pregunta es demasiado básica :-)

0 votos

Nada en la vida es seguro, ni siquiera en las imaginarias realidades modeladas de la estadística. :-) Usted puede pedir un irrazonable incertidumbre extremadamente cercana a $1$ pero nunca llegarás a $1$ exactamente (a menos que seas Buzz Lightyear, supongo).

1 votos

@whuber ¡Tipos! Quise decir (punto) 1.

6voto

jldugger Puntos 7490

Las preguntas básicas son buenas.

En esta aplicación tienes muchos datos y la oportunidad de recoger muchos más. Esto hace que los cálculos sean tan fáciles que prácticamente puedes hacerlos en tu cabeza utilizando principios fundamentales. Voy a compartir la progresión estándar de pensamiento que un estadístico pasará automáticamente cuando se le presenten datos como estos.

  1. El error estándar (SE) de la "avg" (presumiblemente, media aritmética) es la desviación estándar dividida por la raíz cuadrada del recuento. Podemos ampliar la tabla así:

    pre_post | RouteName      | count | avg | st_dev | min |  max |    SE
    ---------+----------------+-------+-----+--------+-----+-------------
    1. pre   | Questions/Show | 24736 |  11 |     15 |   0 | 1004 | 0.095
    2. post  | Questions/Show |   842 |  16 |     26 |   1 |  453 | 0.896
  2. El error estándar de una diferencia satisface el Teorema de Pitágoras: es la raíz de la suma de cuadrados. Por tanto, la diferencia de medias, $5=16-11$ tiene un error estándar de $$\sqrt{15^2/24736 + 26^2/842} \approx \sqrt{0.095^2+0.896^2} = 0.901.$$

    La forma de la fórmula general (en términos de dos medias, dos desviaciones estándar y dos recuentos) debería ser evidente en este ejemplo.

  3. Las diferencias deben medirse como múltiplos de su error estándar , una llamada "puntuación Z". Un "cambio" es una comparación con $0$ De ahí que el aparentemente cantidad de cambio (en promedio) es

    $$\frac{(16-11) - 0}{\sqrt{15^2/24736 + 26^2/842}} \approx 5.55.$$

  4. $5.55$ errores estándar es grande. Por ejemplo, si los tiempos de representación tuvieran distribuciones normales (no es así), esto nos daría unos $99.99999856$ % de confianza en que la diferencia es real y no sólo el resultado de variaciones fortuitas en las observaciones. (El redondeo de la tabla sugiere que una puntuación Z calculada con mayor precisión estaría en algún punto del $4.5$ a $6.5$ pero, a pesar de todo, se trata de puntuaciones Z grandes y corresponden a confidencias calculadas ridículamente altas).

  5. Sin embargo, estos datos no tienen una distribución normal . Un signo claro de ello es que sus desviaciones estándar son mayores que sus medias. Por lo general, tenemos que trabajar más y hacer preguntas adicionales relacionadas con los detalles de la distribución de los datos.

  6. Sin embargo, como hay tantos pre y un número razonablemente grande de post valores, es una apuesta justa que se ha producido un cambio. (Haría falta una larga argumentación para justificar esto y poner algunos límites cuantitativos a la "apuesta justa", así que digamos que es la experiencia la que habla). Una buena estimación de la cantidad de cambio es la diferencia $16-11=5$ .


Por favor, no recurra a los "cálculos de potencia" ni nada parecido: podrían ser engañosos debido a la (fuerte) no normalidad de los datos. Si necesita una visión más detallada, siga proporcionando información adicional sobre los datos. Histogramas de los pre y post valores sería de gran ayuda para cualquier análisis posterior.


Actualización

No hay diferencias significativas en media veces basado en los datos que se publicaron, como "limpiado" para incluir sólo las duraciones entre 5 y 65 ms: Calculo una estadística Z de $0.91$ que no es nada grande. Sin embargo, hay una diferencia que es visible en los histogramas. Se puede detectar con una prueba de chi-cuadrado (que es extremadamente significativo, con un valor p esencialmente cero: el estadístico chi-cuadrado es $323$ con $60$ grados de libertad). La naturaleza de la diferencia queda clara en los histogramas:

Histograms

Los tiempos de menor duración a 9 y 10 ms parecen haberse alargado (en promedio) a 12-20 ms. Una forma más potente de evaluar este cambio es trazar los residuos estandarizados de chi-cuadrado. Se trata de valores que, al igual que las estadísticas z, deberían situarse normalmente entre $-2$ y $2$ y rara vez superan $3$ en tamaño. Para una duración determinada, un residuo positivo para el post significa que después del cambio hubo más ocurrencias de las esperadas (suponiendo que no hubiera habido cambios) y un residuo negativo significa que hubo menos de esa duración. Aquí está el gráfico, con líneas dibujadas en $\pm 3$ como referencia:

Residuals

La evidente tendencia a la baja (de sólo significativamente positiva a los 12-14 ms a sólo significativamente negativa a los 57-64 ms) en los residuos para duraciones superiores a 11 ms sugiere que las representaciones que desaparecieron del grupo de 8-11 ms han reaparecido dispersas en el rango de 13-65+ ms. Esto sugiere, como hipótesis de trabajo, que había un grupo de tiempos de representación cortos (que comprendían entre el 5 y el 10% del total) que se alargaron tras el cambio pero por lo demás nada más parece haber cambiado.

1 votos

He graficado los tiempos como lo sugeriste y descubrí dos picos claros (golpes de caché y pérdidas de caché). Como los aciertos de caché no son muy significativos, los he eliminado dejando dos bonitos picos gaussianos inclinados. Actualizaré mi pregunta con los datos y el gráfico. Gracias.

1 votos

Este es un buen ejemplo de cómo la exploración de los datos puede proporcionar información que las pruebas estadísticas formales no proporcionan.

0voto

Fraukje Puntos 139

Para comprobar los cambios antes y después dentro de un grupo, debe realizar un ANOVA de medidas repetidas (prueba T de medidas repetidas). Si quiere saber cuántas mediciones necesitaría para obtener un 1% (.01) de certeza, puede calcularlo con una calculadora de potencia estadística.

Espero que eso ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X