La prueba utilizada determinará la forma de evaluar la cantidad de datos que se necesitan. Sin embargo, las pruebas estándar, tales como el $\chi^2$, parecería ser inferior o inapropiado, por dos razones:
La hipótesis alternativa es más específica que la mera falta de independencia: se centra en un nivel alto durante un día en particular.
Lo que es más importante, la hipótesis fue inspirado por los datos en sí.
Vamos a examinar estas a su vez y, a continuación, extraer conclusiones.
Pruebas estándar de mayo de falta de energía
Para referencia, aquí es una prueba estándar de la independencia:
x <- c(3,2,1,2,1,2,6) # The data
chisq.test(x, simulate.p.value=TRUE, B=9999)
X-squared = 7.2941, df = NA, p-valor = 0.3263
(El valor de p $0.33$ se calcula a través de la simulación debido a que el $\chi^2$ aproximación a la distribución de la estadística de prueba se inicia la descomposición con pequeñas cuentas.)
Si ... antes de ver los datos-que había sido la hipótesis de que los fines de semana podría provocar más errores, entonces sería más potente para comparar el sábado+domingo total para el lunes-viernes total, en lugar de utilizar el $\chi^2$ estadística. Aunque podemos analizar este especial de prueba totalmente (y obtener los resultados de los análisis), es más simple y más flexible sólo para realizar una rápida simulación. (El siguiente es R
código $100,000$ iteraciones; tarda menos de un segundo para ejecutar.)
n.iter <- 1e5 # Number of iterations
set.seed(17) # Start a reproducible simulation
n <- sum(x) # Sum of all data
sim <- rmultinom(n.iter, n, rep(1, length(x))) # The simulated data, in columns
x.satsun <- sum(x[6:7]) # The test statistic
sim.satsun <- colSums(sim[6:7, ]) # The simulation distribution
cat(mean(c(sim.satsun >= x.satsun, 1))) # Estimated p-value
0.08357916
El resultado, que se muestra en la última línea, es el valor p de esta prueba. Es mucho más pequeña que la $\chi^2$ p-valor previamente calculado. Este resultado sería considerada importante por cualquier persona que necesite de confianza del 90%, mientras que algunas personas podrían considerar la $\chi^2$ p-valor significativo. Esa es la evidencia de que el mayor poder para detectar una diferencia.
Mayor poder es importante: lleva a mucho más pequeños tamaños de muestra. Pero no voy a desarrollar esta idea, debido a las conclusiones en la sección siguiente.
Los datos generados hipótesis da una falsa sensación de seguridad
Es mucho más grave problema que la hipótesis fue inspirado por los datos. Lo que realmente necesitamos de la prueba es esta:
Si no hubo asociación entre los eventos y el día de la semana, ¿cuáles son las probabilidades de que el analista, sin embargo, se ha observado un patrón inusual "en el valor de cara"?
Aunque esto no es definitivamente de responder, porque no tenemos ninguna manera de modelar el analista del proceso de pensamiento, se puede hacer el progreso mediante la consideración de algunas de las posibilidades reales. Para ser honesto sobre ello, debemos contemplar los patrones distinto del que en realidad apareció. Por ejemplo, si no hubiera sido de 8 eventos en miércoles y no más de 3 en cualquier otro día, es una buena apuesta que dicho patrón ha sido observado (que conduce a una hipótesis de que los miércoles son de alguna manera el error de inducción).
Otros patrones creo probabilidades de ser observado por cualquier observador, interesados analista incluiría a todos aparente clústeres de datos, incluyendo:
Un solo día con un valor alto.
Cualquiera de los dos días adyacentes con un alto recuento.
Cualquier adyacentes días con un valor alto.
"Adyacentes" significa en un sentido circular: el domingo es adyacente a lunes, aunque estos días están muy separadas en el listado de datos. Otros modelos son posibles, tales como dos días separados con recuentos altos. No voy a intentar hacer una lista exhaustiva; estos tres patrones será suficiente para hacer el punto.
Es útil para evaluar la probabilidad de que un perfectamente al azar del conjunto de datos habría evocado aviso en este sentido. Podemos evaluar que la probabilidad de realizar la simulación de muchos conjuntos de datos aleatorios y contar alguna que buscar al menos tan inusual como el real de datos sobre cualquiera de estos criterios. Pues ya lo tenemos en nuestra simulación, el análisis es una cuestión de un par de segundos más trabajo:
stat <- function(y) {
y.2 <- c(y[-1], y[1]) + y # Totals of adjacent days
y.3 <- y.2 + c(y[-(1:2)], y[1:2]) # Totals of 3-day groups
c(max(y), max(y.2), max(y.3)) # Largest values for 1, 2, 3 days
}
sim.stat <- apply(sim, 2, stat)
x.stat <- stat(x)
extreme <- colSums(sim.stat >= x.stat) >= 1
cat(p.value <- mean(c(extreme, 1)))
0.3889561
Este resultado es mucho más realista de evaluación de la situación que hemos visto antes. Se sugiere que casi no hay evidencia objetiva de que los eventos están relacionados con el día de la semana.
Conclusiones
La mejor solución, entonces, podría ser la conclusión de que hay probabilidades de que no es nada inusual. Mantener la supervisión de los eventos, pero no te preocupes por cuánto tiempo será necesario para producir "significativo" de los resultados.