3 votos

Predecir los tiempos de carrera para los lugares de encuentro de la pista

Buenos días a todos,

Soy un entrenador de atletismo en Texas. Es mi forma amable de decir que no tengo conocimientos de estadística, pero intento aprender lo que puedo. Perdóname si no uso el léxico correctamente.

He estado recopilando los tiempos de finalización de los seis primeros lugares en un encuentro anual particular en 102 eventos en curso (51 cada uno para niños y niñas, considerando que hay múltiples grupos de edad). He agregado los resultados de los últimos 17 años, para un total de 10.404 entradas. Esto está disponible en una tabla de fusión de Google aquí en caso de que alguien esté interesado.

Mi objetivo es tratar de predecir el tiempo de llegada de cada uno de los seis primeros lugares en el encuentro del próximo año (2016), lo que significa que usaré 17 entradas por predicción. Esto significa que haré alrededor de 555 predicciones; no voy a hacer predicciones para otros 57 lugares debido a las lagunas en los datos. Además, me gustaría llegar a un rango por encima y por debajo de esta predicción que añadirá una certeza razonable. Originalmente, lo llamé "intervalo de confianza" (utilicé el 95%) pero después de seguir leyendo, el "intervalo de predicción" parece ser más correcto. Por otra parte, me confundo, porque no se trata de un muestreo aleatorio de información.

Originalmente usé un fórmula de la hoja de cálculo para derivar mis predicciones y rango, pero esto se ha extendido fuera de control y he perdido la pista de mi propio proceso de pensamiento (cuidado con el lector: la fórmula de cada una de esas células es una gigantesca y fea bestia). Aunque aquí hay una correlación (los tiempos han mejorado gradualmente a lo largo de los años en casi todos los eventos, debido al aumento de la participación), obviamente no es lineal, ya que debe igualarse antes de llegar a cero.

Mis preguntas son así:

  1. ¿Es mi objetivo factible?
  2. Si es así, ¿qué modelo en particular debería usar para derivar estas predicciones?
  3. ¿Qué es lo que mejor facilitaría esto? En otras palabras, ¿debería seguir trabajando con una fórmula de hoja de cálculo, o funcionaría mejor usando un programa de base de datos como PSPP? ¿O quizás debería usar R? Tendría un poco de aprendizaje que hacer si cualquiera de las dos últimas fuera necesario.
  4. ¿Se trata de un caso en el que debería haber un "intervalo de predicción" en lugar de un "intervalo de confianza"? Me gustaría poder probar esto, después de que termine la reunión, para ver si el modelo funcionó. Ya que estamos hablando de centésimas de segundo en algunos casos, tiene que haber algún tipo de intervalo con el que trabajar.

Muchas gracias por su ayuda y paciencia.

EDITORIAL: Como un comentarista ha señalado, los datos también incluyen el número de participantes en cada evento.

Además, han pasado un par de años desde que establecí mi ecuación inicial, pero para aquellos de ustedes que no quieran revisar esa fea fórmula de la hoja de cálculo, creo que usé esto: $$ f(y)~=~ \overbrace { \underbrace {m~ \cdot ~ \ln (x)~+~a}_ \text {Time Prediction}~ \mp ~ \underbrace { \frac {{t_{ \alpha ,v} \cdot SE_y}}{ \sqrt {{n}}}}_{ \Delta y}}^ \text {Lower and Upper Confidence Limits} $$ Otra vez, aficionado aquí, así que perdóname si eso es un galimatías.

0voto

Josh McCarthy Puntos 18

Te he votado porque me gusta esto en su conjunto. Desearía que tuvieras más datos para demostrar realmente la diferencia en el tiempo de cruce de la línea de meta por grupos de edad y género en diferentes circunstancias, como la temperatura del aire de ese día y tal vez algunos otros. Es difícil predecir el resultado de un evento, pero con más datos, puedes predecir cualquier cosa con un grado relativamente alto de precisión. Lo que he hecho ha sido obtener la "Media" y la "Desviación Estándar" y ejecutar una simulación sobre un posible tiempo de finalización.

=NORMINV(RAND(),Mean,StandardDeviation)

Separa todos los grupos de edad y géneros y calcula la Media y la Desviación Estándar y deja caer los valores en el código de arriba, lo que hace es dibujar una variante aleatoria "RAND()" de la Distribución Normal con una Media y una Desviación Estándar que seleccionas.

enter image description here

Aquí hay un gráfico de los datos que proporcionó sólo para el Dash 200M

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X