Buenos días a todos,
Soy un entrenador de atletismo en Texas. Es mi forma amable de decir que no tengo conocimientos de estadística, pero intento aprender lo que puedo. Perdóname si no uso el léxico correctamente.
He estado recopilando los tiempos de finalización de los seis primeros lugares en un encuentro anual particular en 102 eventos en curso (51 cada uno para niños y niñas, considerando que hay múltiples grupos de edad). He agregado los resultados de los últimos 17 años, para un total de 10.404 entradas. Esto está disponible en una tabla de fusión de Google aquí en caso de que alguien esté interesado.
Mi objetivo es tratar de predecir el tiempo de llegada de cada uno de los seis primeros lugares en el encuentro del próximo año (2016), lo que significa que usaré 17 entradas por predicción. Esto significa que haré alrededor de 555 predicciones; no voy a hacer predicciones para otros 57 lugares debido a las lagunas en los datos. Además, me gustaría llegar a un rango por encima y por debajo de esta predicción que añadirá una certeza razonable. Originalmente, lo llamé "intervalo de confianza" (utilicé el 95%) pero después de seguir leyendo, el "intervalo de predicción" parece ser más correcto. Por otra parte, me confundo, porque no se trata de un muestreo aleatorio de información.
Originalmente usé un fórmula de la hoja de cálculo para derivar mis predicciones y rango, pero esto se ha extendido fuera de control y he perdido la pista de mi propio proceso de pensamiento (cuidado con el lector: la fórmula de cada una de esas células es una gigantesca y fea bestia). Aunque aquí hay una correlación (los tiempos han mejorado gradualmente a lo largo de los años en casi todos los eventos, debido al aumento de la participación), obviamente no es lineal, ya que debe igualarse antes de llegar a cero.
Mis preguntas son así:
- ¿Es mi objetivo factible?
- Si es así, ¿qué modelo en particular debería usar para derivar estas predicciones?
- ¿Qué es lo que mejor facilitaría esto? En otras palabras, ¿debería seguir trabajando con una fórmula de hoja de cálculo, o funcionaría mejor usando un programa de base de datos como PSPP? ¿O quizás debería usar R? Tendría un poco de aprendizaje que hacer si cualquiera de las dos últimas fuera necesario.
- ¿Se trata de un caso en el que debería haber un "intervalo de predicción" en lugar de un "intervalo de confianza"? Me gustaría poder probar esto, después de que termine la reunión, para ver si el modelo funcionó. Ya que estamos hablando de centésimas de segundo en algunos casos, tiene que haber algún tipo de intervalo con el que trabajar.
Muchas gracias por su ayuda y paciencia.
EDITORIAL: Como un comentarista ha señalado, los datos también incluyen el número de participantes en cada evento.
Además, han pasado un par de años desde que establecí mi ecuación inicial, pero para aquellos de ustedes que no quieran revisar esa fea fórmula de la hoja de cálculo, creo que usé esto: $$ f(y)~=~ \overbrace { \underbrace {m~ \cdot ~ \ln (x)~+~a}_ \text {Time Prediction}~ \mp ~ \underbrace { \frac {{t_{ \alpha ,v} \cdot SE_y}}{ \sqrt {{n}}}}_{ \Delta y}}^ \text {Lower and Upper Confidence Limits} $$ Otra vez, aficionado aquí, así que perdóname si eso es un galimatías.