Las preguntas básicas son buenas.
En esta aplicación tienes muchos datos y la oportunidad de recoger muchos más. Esto hace que los cálculos sean tan fáciles que prácticamente puedes hacerlos en tu cabeza utilizando principios fundamentales. Voy a compartir la progresión estándar de pensamiento que un estadístico pasará automáticamente cuando se le presenten datos como estos.
-
El error estándar (SE) de la "avg" (presumiblemente, media aritmética) es la desviación estándar dividida por la raíz cuadrada del recuento. Podemos ampliar la tabla así:
pre_post | RouteName | count | avg | st_dev | min | max | SE
---------+----------------+-------+-----+--------+-----+-------------
1. pre | Questions/Show | 24736 | 11 | 15 | 0 | 1004 | 0.095
2. post | Questions/Show | 842 | 16 | 26 | 1 | 453 | 0.896
-
El error estándar de una diferencia satisface el Teorema de Pitágoras: es la raíz de la suma de cuadrados. Por tanto, la diferencia de medias, $5=16-11$ tiene un error estándar de $$\sqrt{15^2/24736 + 26^2/842} \approx \sqrt{0.095^2+0.896^2} = 0.901.$$
La forma de la fórmula general (en términos de dos medias, dos desviaciones estándar y dos recuentos) debería ser evidente en este ejemplo.
-
Las diferencias deben medirse como múltiplos de su error estándar , una llamada "puntuación Z". Un "cambio" es una comparación con $0$ De ahí que el aparentemente cantidad de cambio (en promedio) es
$$\frac{(16-11) - 0}{\sqrt{15^2/24736 + 26^2/842}} \approx 5.55.$$
-
$5.55$ errores estándar es grande. Por ejemplo, si los tiempos de representación tuvieran distribuciones normales (no es así), esto nos daría unos $99.99999856$ % de confianza en que la diferencia es real y no sólo el resultado de variaciones fortuitas en las observaciones. (El redondeo de la tabla sugiere que una puntuación Z calculada con mayor precisión estaría en algún punto del $4.5$ a $6.5$ pero, a pesar de todo, se trata de puntuaciones Z grandes y corresponden a confidencias calculadas ridículamente altas).
-
Sin embargo, estos datos no tienen una distribución normal . Un signo claro de ello es que sus desviaciones estándar son mayores que sus medias. Por lo general, tenemos que trabajar más y hacer preguntas adicionales relacionadas con los detalles de la distribución de los datos.
-
Sin embargo, como hay tantos pre
y un número razonablemente grande de post
valores, es una apuesta justa que se ha producido un cambio. (Haría falta una larga argumentación para justificar esto y poner algunos límites cuantitativos a la "apuesta justa", así que digamos que es la experiencia la que habla). Una buena estimación de la cantidad de cambio es la diferencia $16-11=5$ .
Por favor, no recurra a los "cálculos de potencia" ni nada parecido: podrían ser engañosos debido a la (fuerte) no normalidad de los datos. Si necesita una visión más detallada, siga proporcionando información adicional sobre los datos. Histogramas de los pre
y post
valores sería de gran ayuda para cualquier análisis posterior.
Actualización
No hay diferencias significativas en media veces basado en los datos que se publicaron, como "limpiado" para incluir sólo las duraciones entre 5 y 65 ms: Calculo una estadística Z de $0.91$ que no es nada grande. Sin embargo, hay una diferencia que es visible en los histogramas. Se puede detectar con una prueba de chi-cuadrado (que es extremadamente significativo, con un valor p esencialmente cero: el estadístico chi-cuadrado es $323$ con $60$ grados de libertad). La naturaleza de la diferencia queda clara en los histogramas:
Los tiempos de menor duración a 9 y 10 ms parecen haberse alargado (en promedio) a 12-20 ms. Una forma más potente de evaluar este cambio es trazar los residuos estandarizados de chi-cuadrado. Se trata de valores que, al igual que las estadísticas z, deberían situarse normalmente entre $-2$ y $2$ y rara vez superan $3$ en tamaño. Para una duración determinada, un residuo positivo para el post
significa que después del cambio hubo más ocurrencias de las esperadas (suponiendo que no hubiera habido cambios) y un residuo negativo significa que hubo menos de esa duración. Aquí está el gráfico, con líneas dibujadas en $\pm 3$ como referencia:
La evidente tendencia a la baja (de sólo significativamente positiva a los 12-14 ms a sólo significativamente negativa a los 57-64 ms) en los residuos para duraciones superiores a 11 ms sugiere que las representaciones que desaparecieron del grupo de 8-11 ms han reaparecido dispersas en el rango de 13-65+ ms. Esto sugiere, como hipótesis de trabajo, que había un grupo de tiempos de representación cortos (que comprendían entre el 5 y el 10% del total) que se alargaron tras el cambio pero por lo demás nada más parece haber cambiado.
0 votos
Disculpe si la pregunta es demasiado básica :-)
0 votos
Nada en la vida es seguro, ni siquiera en las imaginarias realidades modeladas de la estadística. :-) Usted puede pedir un irrazonable incertidumbre extremadamente cercana a $1$ pero nunca llegarás a $1$ exactamente (a menos que seas Buzz Lightyear, supongo).
1 votos
@whuber ¡Tipos! Quise decir (punto) 1.
0 votos
El uso del lenguaje estadístico requiere cuidado. No sólo hay al menos dos completamente opuesto Hay dos formas principales (pero diferentes) de medir la certeza ("confianza", que es grande cuando la certeza es buena, y "tamaño", que es pequeño cuando la certeza es buena), y hay dos representaciones principales (intervalos de confianza frecuentistas e intervalos de credibilidad bayesianos). Aunque estas sutilezas no importan en el presente caso -siempre que nos comuniquemos con suficiente claridad-, hay que tener cuidado de indicar lo que se quiere decir cuando se utiliza un número para representar la "certeza".
0 votos
Los datos brutos no son demasiado útiles porque no contienen la información necesaria para reproducir su procedimiento de limpieza. Los resultados que obtenga (utilizando, por ejemplo, una prueba de chi-cuadrado) serán en realidad invertido después de la limpieza: antes de la limpieza hay un cambio hacia tiempos ligeramente más largos, pero después de la limpieza hay un cambio hacia tiempos ligeramente más cortos. Ambos cambios son pequeños pero altamente significativos (estadísticamente).
1 votos
La limpieza ha sido heurística, he eliminado todo lo que está por debajo de 5ms y por encima de 75ms (esto último simplemente para que el gráfico se vea decente). Hay dos puntos "espurios" en 22000 que quiero eliminar porque hemos tenido algunos problemas con la base de datos que no están relacionados. Creo que eliminar el hit de caché también es justo porque esa parte realmente depende exclusivamente del tráfico que recibimos, por ejemplo, si un enlace sube a reddit, recibimos muchos hits de caché.
0 votos
Parece que la leyenda de sus parcelas ha invertido el
pre
ypost
resultados.0 votos
No lo creo, las leyendas se ven bien, la pre tenía una media más baja por los golpes de caché.
0 votos
Entonces hay que invertir las etiquetas de los datos brutos.