6 votos

Significación estadística del mes de nacimiento de boxeadores profesionales

He mirado las fechas de nacimiento de los mejores 100 profesionales boxeadores de todos los tiempos (67 de ellos para ser exactos). El 40% de ellos nacieron durante ciertos de 3 meses-largos períodos de tiempo. Si la fecha de nacimiento de boxeadores fueron totalmente al azar (como sería de esperar) que en cualquier período de 3 meses, aproximadamente el 25% de los boxeadores deben ser nacidos durante cualquier período de 3 meses, pero me he encontrado con un período donde se fue del 40%. He encontrado otro período de 3 meses, donde sólo el 12% de los boxeadores nacieron. La pregunta es--es que el 40% estadísticamente significativa en comparación a la espera de un 25%? La misma pregunta para el 12% (que es significativo estadísticamente diferentes de un 25%)

Me parece que no puede averiguar cómo ejecutar los números. Como se mencionó n = 67.

(En realidad, el mes de nacimiento no está perfectamente distribuido--un poco más las personas nacen en los meses de verano que en el invierno, pero creo que esto no debe afectar el total de la 'historia' aquí). Agradezco mucho cualquier ayuda.

14voto

jldugger Puntos 7490

Los resultados, como se informó, no son estadísticamente significativas.

Podemos llegar a esta conclusión (y entender mejor cómo es que debe ser interpretado) en los pasos. El primer paso es llevar a corazón Scortchi comentario,

Cuidado con los datos de dragado.

Este es el proceso de la búsqueda de "patrones" en los datos, la búsqueda y, a continuación, la aplicación formal de la prueba estadística para determinar su "significación". Este sería un abuso de la estadística de prueba, como ha sido ampliamente explicado y demostrado en muchos lugares.

El segundo paso es preguntar si el patrón encontrado en estos datos es, sin embargo por lo llamativo que sería razonable tomar como evidencia de una significativa variación en el mes de nacimiento. Algunos modelos son perfectamente obvio, no importa qué! Vamos a la pantalla de los resultados, el uso de crudo aproximaciones y modelos estadísticos, para ver qué tan fuerte que los resultados pueden ser. Supongamos que

  1. Los datos podrían ser concebida como un azar, muestra representativa de una población bien definida, tales como "campeón de todos los boxeadores profesionales." Aunque esta es, obviamente, no es una muestra aleatoria, es posible tratarlo como si fuera, al menos para estos fines de selección.

  2. Nacimiento meses se dividen en cuatro contiguos que no se superponen temporadas (sin referencia a los valores de los datos).

  3. Como una hipótesis nula (tentativamente a cabo, para ser evaluados a la luz de los datos), todos de la variación observada en estos totales estacionales es aleatorio.

Con estos supuestos, el conde de cualquier individuo de la temporada tiene un Binomio$(67, 1/4)$ distribución. Una aproximación Normal a esta distribución, que tiene una media de $67/4\approx 17$ y la desviación estándar de $\sqrt{67(1/4)(1-1/4)}\approx 3.5$, sugiere que los valores dentro de un par de SDs de la media debe ser esperado como resultado de la variación de muestreo. Este es el intervalo de $[10, 24]$, con un ancho de $14$ (igual a $21\%$ del total).

Aunque la citada estadística de $40\% - 12\%$ = $28\%$ para el rango igual a $19$, es mayor que $14$ (y por lo tanto en el lado de alta), no es que alto. Las variaciones naturales de las tasas de natalidad así, las variaciones en la longitud de los cuartos (que van desde lo $90$ $92$días), y el hecho de que hay $12$ (no sólo de $4$) posible de tres meses de secuencias de mirar, sugieren que la $19$ podría estar en el margen de ser estadísticamente significativa.

Esto nos lleva al tercer paso: vamos a tratar de reproducir la evaluación de los datos que realmente ocurrió. Si uno fuera a explorar la fecha de nacimiento de datos para buscar patrones, los métodos más poderosos que mirar fechas individuales. Voy a suponer, sin embargo, que esta era no se realiza y que, inicialmente, las fechas fueron resumidos por mes. Uno podría parcela de frecuencias por mes y busque patrones de altas y bajas, tanto como se describe en la pregunta. Plausiblemente, un "patrón" consistiría en alguna serie contigua de meses con un alto promedio de los recuentos y alguna otra serie contigua de meses con una baja promedio de la cuenta.

Podríamos generosamente caracterizar esta búsqueda de patrones como una sistemática procedimiento estadístico. Una forma sería la de buscar diferencias estadísticamente significativas (en algún nivel deseado $\alpha$,$\alpha = 0.05 = 5\%$) entre el individuo meses. Si tales diferencias no aparecen, uno podría buscar diferencias significativas entre la ventana mensual de las sumas utilizando dos meses de la ventana, a continuación, una ventana de tres meses, y así sucesivamente. (Es intuitivamente obvio que no se tiene más información adquirida más allá de los seis meses de la ventana.)

La estadística de este procedimiento será de un vector $\mathbf t = (t_1, t_2, \ldots, t_6)$ dando el rango observado de la ventana de medios de windows de longitudes $1, 2, \ldots, 6$ meses. Por ejemplo, considere estos simulado mensual de la cuenta (lo que ocurrió en la segunda de las $1,000,000$ iteraciones de este experimento):

Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Feb 
  0   8   8  10   9   5   3   6   5   7   3   3 

Su alcance es $t_1 = 10 - 0=10$. Sus dos meses de sumas (dado por Mar+Abr, Abril+Mayo, ..., Enero+Febrero, Febrero+Mar)

  8   16   18   19   14    8    9   11   12    10     6     3

El rango de los es $t_2 = 19-3=16$. De continuar así a través de los seis meses sumas da el vector de rangos

$$\mathbf t = (10,16,21,22,22,19).$$

Such a statistic will be considered "significant" if, as one scans through it, any of its components $t_k$ is in the critical region for a size-$\alpha$ test for windowed sums of width $k$. Because we are looking at ranges, the critical region of unusually high ranges for each $k$ can be described by a single number $c_k$. If any of the $t_k$ exceed $c_k$, one would have noticed a "pattern."

Figure

Marginal distributions of the ranges for windowed sums with $67$ total observations were computed by simulating $1,000,000$ samples. The observed value of $19$ is somewhat rare, as seen by its position in the tail of the "Window Width 3$ la trama, pero en el contexto general de la búsqueda de patrones no parecen inusuales, como se explica a continuación.

Debido a múltiples e interdependientes que las pruebas se realizan en los mismos datos, el tamaño de la prueba no será el mismo que el tamaño nominal de $\alpha$. La tasa de error se infla debido a la repetición de "dragado" que se produce durante este proceso de seis pasos. La simulación nos ayuda a que la estimación de la tasa de error. Por ejemplo, cuando se ejecuta todos los seis pasos en un nivel nominal de $\alpha=0.05$, las simulaciones muestran que un total del diez por ciento de la perfección al azar los resultados parecen ser "significativos". Para compensar la inflación, he realizado una búsqueda para encontrar una pequeña nominal $\alpha$ que conduce a un cinco por ciento de la tasa de error. Basado en una simulación de $1,000,000$ de las muestras, el nominal $\alpha$ debe estar muy cerca de $0.0254$. El uso de ella, la crítica de vectores es

$$\mathbf c = (c_1, c_2, \ldots, c_6) = (12, 16, 19, 20, 22, 23)$$

and the actual (Type I) error rate is $0.048\aprox 5\$. (It is not possible to hit $%5\$ exactly due to the discrete nature of the distribution.)

The one thing we know about the actual data is that $%t_3 = 19$. Because this does not exceed $c_3$, we do not reject the null hypothesis. In other words, none of the information disclosed in the question is strong enough to convince us of the need for any explanation of the data behavior beyond natural, random chance variation.

The fourth step is to consider whether the previous conclusion should be modified due to departures between reality and our models of the data and the data-exploration process. The binomial model is fairly good: it accounts adequately for major behaviors in birth rates (but ignores small fluctuations in overall birth rates in the population and temporal correlation in those rates). The sequential pattern-seeking model is likely inadequate: it cannot reflect all the different ways these data might have been looked at to seek patterns. Both limitations of the models suggest they are not sufficiently conservative. We should therefore require strongly significant results before we are comfortable concluding that there is any temporal pattern to professional boxing birth rates at all.

One could conduct more powerful exploration of these data, but given that they have already been worked over so well, it seems unlikely that any new results would be strong enough to change our negative conclusion. The best use of these data might be to provide corroborative evidence to support conclusions from another related dataset that is carefully and formally evaluated.


R code to reproduce the simulation.

It requires about one second per $100,000$ iteraciones. Set n.iter en consecuencia.

#
# Precalculate coefficients for a width-k circular neighborhood sum.
#
focal.coeff <- function(n, k) {
  outer(1:n, 1:n, function(i,j) {
    m <- (j - i + floor((k-1)/2)) %% n
    0 <= m & m < k
  })
}
#
# Return days per month.
#
month.days <- function() {
  months.per.year <- 12
  days.per.year <- 365.25
  days.per.month <- ceiling(days.per.year / months.per.year)
  # This is the pattern:
  d <- round(days.per.month - (((1:months.per.year-1) * 3) %% 5) / 5, 0)
  # Adjust the last month to correct the total:
  d[months.per.year] <- days.per.year - sum(d) + d[months.per.year]
  names(d) <- c("Mar", "Apr", "May", "Jun", "Jul", "Aug", 
                "Sep", "Oct", "Nov", "Dec", "Jan", "Feb")
  return(d)
}
#
# Multinomial simulation.
#
set.seed(17)
size <- 67
n.iter <- 1e6
p <- month.days()
x <- matrix(rmultinom(n.iter, size, p), nrow=length(p), dimnames=list(names(p)))
#
# Find the ranges of windowed sums.
#
m <- floor(length(p)/2)
ranges <- matrix(NA, m, n.iter)
for (k in 1:m) {
  stats <- apply(focal.coeff(dim(x)[1], k) %*% x, 2, range)
  ranges[k, ] <- stats[2, ] - stats[1, ]
}
#
# Study them.
#
# par(mfrow=c(2,3))
# range.max <- max(ranges)
# colors <- hsv(0:(m-1)/m, 0.7, 0.8)
# invisible(sapply(1:m, function(k) 
#   hist(ranges[k, ], breaks=(0:range.max)+1/2, xlim=c(0, 32), 
#        border="#e0e0e0", col=colors[k],
#        xlab="Range", freq=FALSE,
#        main=paste("Window width", k))))
#
# Critical values.
#
alpha <- 0.0254
(critical.values <- apply(ranges, 1, quantile, probs=1-alpha))
#
# Sequential error rates.
# The Type I error rate is the maximum of these six rates.
#
(rowMeans(apply(ranges > critical.values, 2, cumsum) > 0))

8voto

Silverfish Puntos 6909

Un enfoque básico

Usted debe ser capaz de encontrar datos sobre nacimientos por tiempo de un año para el conjunto de la población.

A ver si hay evidencia de que los boxeadores tienen una distribución diferente de las fechas de nacimiento, dado su tamaño de la muestra sugiero que trabajo en una granularidad de "meses". Su hipótesis nula es que los boxeadores de nacimiento de meses de seguir la misma distribución que la población en general.

Para cada mes se puede calcular la "frecuencia" de boxeador cumpleaños al multiplicar el tamaño de la muestra por la proporción de personas en el conjunto de la población que han nacido en ese mes.

A continuación, puede comparar que a la "frecuencia observada" - el número de boxeadores que realmente tenía un cumpleaños en el mes. Para determinar si hay evidencia significativa de una diferencia entre ellos, se puede utilizar un chi-cuadrado de bondad de ajuste de la prueba.

Problemas con el enfoque básico

Para un estudiante que trabaja a un nivel introductorio estoy esperando el de arriba es adecuadamente un agudo respuesta. Yo no creo que sea la "mejor" manera de hacer las cosas - por ejemplo, que arroja datos sobre la fecha real de nacimiento, ya que sólo se ve en mes, y de los grupos de 1 de Febrero con 28 Feb a pesar de no estar cerca de el 31 de enero. Los estadísticos general odio tirar de información a partir de sus datos. Esto es simplemente un caso especial de agrupamiento o de la discretización de datos continuo y que es bien conocido por ser una mala idea.

Los enfoques más sofisticados son ciertamente posible que tenga en cuenta el día de nacimiento. Por otra parte, se debe reconocer que el 1 de enero no se encuentra en el extremo opuesto del año, hasta el 31 de diciembre, sino que esos días son adyacentes - este es el dominio de la estadística circular (también llamado las estadísticas de dirección). Tenga en cuenta que el test de la chi-cuadrado de bondad de ajuste prueba de trata mes como nominales de datos, por lo que carece de cualquier concepto de ordenamiento de los meses en que todos - no sólo es el punto sutil que enero es próxima a la de diciembre se perdió, por lo que es más obvio hecho de que enero es próxima a la de febrero.

Hay otro problema con el agrupamiento por mes. Si usted encuentra un resultado significativo, porque, dicen, Marzo y noviembre están sobrerrepresentados mientras que Mayo y enero, son los representados, es difícil interpretar que de manera significativa. Sospecho que esto se relaciona con el propósito subyacente de la investigación: no es probable que mes a mes la variación usted está interesado en.

Relativa del efecto de la edad y el problema con tres meses de windows

Yo pensé que debería decir algo acerca de por qué época del año podría materia para el cumpleaños de deportistas profesionales - a nivel juvenil puede ser ventajoso a ser una de las personas de edad en su categoría de edad. Así que lo que se está investigando no es totalmente una idea tonta - es un fenómeno estudiado en la academia y la ciencia del deporte llamado el efecto de la edad relativa - a pesar de su tamaño de la muestra puede ser demasiado baja para detectar un efecto de este tipo, incluso si existe (este es el problema de la potencia estadística).

Me sugirió meses como usted debe tener suficiente de un tamaño de muestra para hacer una prueba de chi-cuadrado factible (me imagino que la frecuencias esperadas será de al menos 5 de cada mes) y los meses son bastante objetiva cosa para clasificar.

Un problema con la clasificación en tres mes de windows es la que introduce algunos subjetividad - no tomar de enero para ser parte de la ventana de enero a Marzo, o a partir de diciembre a febrero, o a partir de noviembre a enero? Sería tentador elegir de tal manera de maximizar la discrepancia entre observados y esperados en los nacimientos.

Supongamos que en la competición juvenil, alguien que nació en septiembre va a ser el más joven en su categoría de edad, mientras que alguien que nació en agosto será el más antiguo, y usted se pregunta si esto confiere una ventaja que podría tener un impacto si la transición a la condición de profesional, entonces usted podría querer comparar dos a seis meses para windows en mi ejemplo, de septiembre a febrero frente de Marzo a agosto. A continuación, puede ver si uno de los mayores competidores en su edad de la banda como un joven competidor se asocia con convertirse en boxeador profesional - aunque esto está sujeto a diversas limitaciones y no puede probar la relación de causalidad. Lo importante es que hubo una justificación objetiva para la selección de los seis meses de windows, en lugar de seleccionar sobre la base de los datos. Esto podría ser hecho como un básico de la chi-cuadrado de bondad de ajuste prueba con dos celdas de la tabla y, por tanto, un grado de libertad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X