Los resultados, como se informó, no son estadísticamente significativas.
Podemos llegar a esta conclusión (y entender mejor cómo es que debe ser interpretado) en los pasos. El primer paso es llevar a corazón Scortchi comentario,
Cuidado con los datos de dragado.
Este es el proceso de la búsqueda de "patrones" en los datos, la búsqueda y, a continuación, la aplicación formal de la prueba estadística para determinar su "significación". Este sería un abuso de la estadística de prueba, como ha sido ampliamente explicado y demostrado en muchos lugares.
El segundo paso es preguntar si el patrón encontrado en estos datos es, sin embargo por lo llamativo que sería razonable tomar como evidencia de una significativa variación en el mes de nacimiento. Algunos modelos son perfectamente obvio, no importa qué! Vamos a la pantalla de los resultados, el uso de crudo aproximaciones y modelos estadísticos, para ver qué tan fuerte que los resultados pueden ser. Supongamos que
Los datos podrían ser concebida como un azar, muestra representativa de una población bien definida, tales como "campeón de todos los boxeadores profesionales." Aunque esta es, obviamente, no es una muestra aleatoria, es posible tratarlo como si fuera, al menos para estos fines de selección.
Nacimiento meses se dividen en cuatro contiguos que no se superponen temporadas (sin referencia a los valores de los datos).
Como una hipótesis nula (tentativamente a cabo, para ser evaluados a la luz de los datos), todos de la variación observada en estos totales estacionales es aleatorio.
Con estos supuestos, el conde de cualquier individuo de la temporada tiene un Binomio$(67, 1/4)$ distribución. Una aproximación Normal a esta distribución, que tiene una media de $67/4\approx 17$ y la desviación estándar de $\sqrt{67(1/4)(1-1/4)}\approx 3.5$, sugiere que los valores dentro de un par de SDs de la media debe ser esperado como resultado de la variación de muestreo. Este es el intervalo de $[10, 24]$, con un ancho de $14$ (igual a $21\%$ del total).
Aunque la citada estadística de $40\% - 12\%$ = $28\%$ para el rango igual a $19$, es mayor que $14$ (y por lo tanto en el lado de alta), no es que alto. Las variaciones naturales de las tasas de natalidad así, las variaciones en la longitud de los cuartos (que van desde lo $90$ $92$días), y el hecho de que hay $12$ (no sólo de $4$) posible de tres meses de secuencias de mirar, sugieren que la $19$ podría estar en el margen de ser estadísticamente significativa.
Esto nos lleva al tercer paso: vamos a tratar de reproducir la evaluación de los datos que realmente ocurrió. Si uno fuera a explorar la fecha de nacimiento de datos para buscar patrones, los métodos más poderosos que mirar fechas individuales. Voy a suponer, sin embargo, que esta era no se realiza y que, inicialmente, las fechas fueron resumidos por mes. Uno podría parcela de frecuencias por mes y busque patrones de altas y bajas, tanto como se describe en la pregunta. Plausiblemente, un "patrón" consistiría en alguna serie contigua de meses con un alto promedio de los recuentos y alguna otra serie contigua de meses con una baja promedio de la cuenta.
Podríamos generosamente caracterizar esta búsqueda de patrones como una sistemática procedimiento estadístico. Una forma sería la de buscar diferencias estadísticamente significativas (en algún nivel deseado $\alpha$,$\alpha = 0.05 = 5\%$) entre el individuo meses. Si tales diferencias no aparecen, uno podría buscar diferencias significativas entre la ventana mensual de las sumas utilizando dos meses de la ventana, a continuación, una ventana de tres meses, y así sucesivamente. (Es intuitivamente obvio que no se tiene más información adquirida más allá de los seis meses de la ventana.)
La estadística de este procedimiento será de un vector $\mathbf t = (t_1, t_2, \ldots, t_6)$ dando el rango observado de la ventana de medios de windows de longitudes $1, 2, \ldots, 6$ meses. Por ejemplo, considere estos simulado mensual de la cuenta (lo que ocurrió en la segunda de las $1,000,000$ iteraciones de este experimento):
Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Feb
0 8 8 10 9 5 3 6 5 7 3 3
Su alcance es $t_1 = 10 - 0=10$. Sus dos meses de sumas (dado por Mar+Abr, Abril+Mayo, ..., Enero+Febrero, Febrero+Mar)
8 16 18 19 14 8 9 11 12 10 6 3
El rango de los es $t_2 = 19-3=16$. De continuar así a través de los seis meses sumas da el vector de rangos
$$\mathbf t = (10,16,21,22,22,19).$$
Such a statistic will be considered "significant" if, as one scans through it, any of its components $t_k$ is in the critical region for a size-$\alpha$ test for windowed sums of width $k$. Because we are looking at ranges, the critical region of unusually high ranges for each $k$ can be described by a single number $c_k$. If any of the $t_k$ exceed $c_k$, one would have noticed a "pattern."
Marginal distributions of the ranges for windowed sums with $67$ total observations were computed by simulating $1,000,000$ samples. The observed value of $19$ is somewhat rare, as seen by its position in the tail of the "Window Width 3$ la trama, pero en el contexto general de la búsqueda de patrones no parecen inusuales, como se explica a continuación.
Debido a múltiples e interdependientes que las pruebas se realizan en los mismos datos, el tamaño de la prueba no será el mismo que el tamaño nominal de $\alpha$. La tasa de error se infla debido a la repetición de "dragado" que se produce durante este proceso de seis pasos. La simulación nos ayuda a que la estimación de la tasa de error. Por ejemplo, cuando se ejecuta todos los seis pasos en un nivel nominal de $\alpha=0.05$, las simulaciones muestran que un total del diez por ciento de la perfección al azar los resultados parecen ser "significativos". Para compensar la inflación, he realizado una búsqueda para encontrar una pequeña nominal $\alpha$ que conduce a un cinco por ciento de la tasa de error. Basado en una simulación de $1,000,000$ de las muestras, el nominal $\alpha$ debe estar muy cerca de $0.0254$. El uso de ella, la crítica de vectores es
$$\mathbf c = (c_1, c_2, \ldots, c_6) = (12, 16, 19, 20, 22, 23)$$
and the actual (Type I) error rate is $0.048\aprox 5\$. (It is not possible to hit $%5\$ exactly due to the discrete nature of the distribution.)
The one thing we know about the actual data is that $%t_3 = 19$. Because this does not exceed $c_3$, we do not reject the null hypothesis. In other words, none of the information disclosed in the question is strong enough to convince us of the need for any explanation of the data behavior beyond natural, random chance variation.
The fourth step is to consider whether the previous conclusion should be modified due to departures between reality and our models of the data and the data-exploration process. The binomial model is fairly good: it accounts adequately for major behaviors in birth rates (but ignores small fluctuations in overall birth rates in the population and temporal correlation in those rates). The sequential pattern-seeking model is likely inadequate: it cannot reflect all the different ways these data might have been looked at to seek patterns. Both limitations of the models suggest they are not sufficiently conservative. We should therefore require strongly significant results before we are comfortable concluding that there is any temporal pattern to professional boxing birth rates at all.
One could conduct more powerful exploration of these data, but given that they have already been worked over so well, it seems unlikely that any new results would be strong enough to change our negative conclusion. The best use of these data might be to provide corroborative evidence to support conclusions from another related dataset that is carefully and formally evaluated.
R
code to reproduce the simulation.
It requires about one second per $100,000$ iteraciones. Set n.iter
en consecuencia.
#
# Precalculate coefficients for a width-k circular neighborhood sum.
#
focal.coeff <- function(n, k) {
outer(1:n, 1:n, function(i,j) {
m <- (j - i + floor((k-1)/2)) %% n
0 <= m & m < k
})
}
#
# Return days per month.
#
month.days <- function() {
months.per.year <- 12
days.per.year <- 365.25
days.per.month <- ceiling(days.per.year / months.per.year)
# This is the pattern:
d <- round(days.per.month - (((1:months.per.year-1) * 3) %% 5) / 5, 0)
# Adjust the last month to correct the total:
d[months.per.year] <- days.per.year - sum(d) + d[months.per.year]
names(d) <- c("Mar", "Apr", "May", "Jun", "Jul", "Aug",
"Sep", "Oct", "Nov", "Dec", "Jan", "Feb")
return(d)
}
#
# Multinomial simulation.
#
set.seed(17)
size <- 67
n.iter <- 1e6
p <- month.days()
x <- matrix(rmultinom(n.iter, size, p), nrow=length(p), dimnames=list(names(p)))
#
# Find the ranges of windowed sums.
#
m <- floor(length(p)/2)
ranges <- matrix(NA, m, n.iter)
for (k in 1:m) {
stats <- apply(focal.coeff(dim(x)[1], k) %*% x, 2, range)
ranges[k, ] <- stats[2, ] - stats[1, ]
}
#
# Study them.
#
# par(mfrow=c(2,3))
# range.max <- max(ranges)
# colors <- hsv(0:(m-1)/m, 0.7, 0.8)
# invisible(sapply(1:m, function(k)
# hist(ranges[k, ], breaks=(0:range.max)+1/2, xlim=c(0, 32),
# border="#e0e0e0", col=colors[k],
# xlab="Range", freq=FALSE,
# main=paste("Window width", k))))
#
# Critical values.
#
alpha <- 0.0254
(critical.values <- apply(ranges, 1, quantile, probs=1-alpha))
#
# Sequential error rates.
# The Type I error rate is the maximum of these six rates.
#
(rowMeans(apply(ranges > critical.values, 2, cumsum) > 0))