13 votos

¿Existe hoy en día alguien más rápido que Usain Bolt?

EDIT: Me interesan más las cuestiones técnicas y la metodología para determinar la probabilidad de un "verdadero" máximo en una población dada una estadística de muestra. Hay problemas con la estimación de la probabilidad de que haya corredores más rápidos que el Sr. Bolt a partir de los tiempos de carrera de los récords, que son tanto obvios como sutiles. Imagínese que no es el caso.


Usain Bolt es el ser humano más rápido medido en los 100 metros lisos. Sin embargo, dado el escaso número de atletas, parece probable que el "verdadero" ser humano más rápido esté sentado en un sofá en algún lugar y nunca haya intentado una carrera competitiva.

Estoy intentando utilizar el hecho de que la diferencia entre las muestras en las colas de la distribución normal se hace cada vez más pequeña. Estoy usando esto para calcular la probabilidad de que exista alguien más rápido que Usain Bolt comparando a Usain con el segundo más rápido, el tercero más rápido y así sucesivamente.

Para ello, intento calcular el mayor valor que existe más allá de "Usain Bolt" tomando la derivada de la FCD de la distribución normal con respecto a $y$ , elevando eso a la $n$ th (donde $n$ es de aproximadamente 7.000.000.000 o el número de muestras menos que el "máximo" - la lógica detrás de esto se describe en el El problema de los tanques alemanes página de Wikipedia que generaliza entre diferentes distribuciones), por ejemplo

$\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy$

  1. ¿Es ésta una forma válida de calcular la probabilidad de que exista alguien más rápido que Usain Bolt?

  2. ¿Existe un nombre para este tipo de preguntas que no sea "Problema de los tanques alemanes para otras distribuciones"?

  3. ¿Existe una buena manera de estimar la desviación estándar de las muestras extremas de una distribución? Encontrar información sobre los 100 metros lisos más rápidos de todos los tiempos es fácil, encontrar las medias y la varianza es difícil)

Gracias por su paciencia al tratar con un programador sin conocimientos del tema.

2 votos

Supone que el hecho de ser un atleta es independiente de su velocidad de carrera. Lo cual está bien, pero es cuestionable.

0 votos

@bayerj Sí, creo que está bastante claro que esta sería una muy mala forma de predecir el próximo aspirante a las Olimpiadas. Sin embargo, me parece una pregunta interesante en general y trato de responderla lo mejor posible con la esperanza de que alguien se apiade y me ayude.

1 votos

Me parece que la pregunta está mal planteada, ya que la cualidad de ser "rápido(a)", aquí, se refiere a un potencial genético o a un talento atlético y no a la capacidad real de alcanzar una gran velocidad.

2voto

Dipstick Puntos 4869

En contra de otras respuestas, yo diría que se puede decir algo sobre las capacidades de Bolts dados los datos disponibles. En primer lugar, reduzcamos su pregunta. Preguntas sobre el ser humano más rápido, pero como hay una diferencia en las distribuciones de las velocidades de carrera de los hombres y las mujeres, donde las mejores corredoras parecen ser ligeramente más lentas que los mejores corredores, deberíamos centrarnos en los corredores. Para obtener algunos datos, podemos mirar el mejores rendimientos del año en la carrera 100 de los últimos 45 años . Hay varias cosas que hay que tener en cuenta sobre estos datos:

  • Esos son los mejores tiempos de carrera, por lo que no nos hablan de las capacidades de todos los humanos, sino de los mínimo velocidades alcanzadas.
  • Suponemos que estos datos reflejan una muestra de los mejores corredores del mundo. Aunque puede ocurrir que haya corredores aún mejores que no hayan participado en los campeonatos, esta suposición parece bastante razonable.

En primer lugar, vamos a discutir cómo pas para analizar estos datos. Podrías notar que si graficamos los tiempos de ejecución contra el tiempo, observaríamos una fuerte relación lineal.

Best running times vs time

Esto podría llevarle a utilizar una regresión lineal para pronosticar la mejora de los corredores que podríamos observar en los próximos años. Sin embargo, esto sería una muy malo idea, que inevitablemente te llevaría a la conclusión de que en aproximadamente dos mil años los humanos serían capaces de correr 100 metros en cero segundos, ¡y después de eso empezarían a lograr los tiempos de carrera negativos! Esto es obviamente absurdo, ya que podemos imaginar que existe algún tipo de límite biológico y físico de nuestras capacidades, que nos es desconocido.

¿Cómo podría analizar estos datos? En primer lugar, hay que tener en cuenta que se trata de datos sobre valores mínimos, por lo que deberíamos utilizar un modelo adecuado para dichos datos. Esto nos lleva a considerar teoría del valor extremo modelos (véase, por ejemplo, el Introducción a la modelización estadística de los valores extremos libro de Stuart Coles). Se puede suponer que para estos datos distribución de valores extremos generalizada (GEV). Si $Y = \max(X_1,X_2,\dots,X_n)$ donde $X_1,X_2,\dots,X_n$ son variables aleatorias independientes e idénticamente distribuidas, entonces $Y_i$ siguen una distribución GEV. Si está interesado en modelar mínimos, entonces si $Z_1,Z_2,\dots,Z_k$ son muestras de mínimos, entonces $-Z_i$ siguen una distribución GEV para los mínimos. Por lo tanto, podemos ajustar la distribución GEV a los datos de las velocidades de carrera, lo que conduce a un ajuste bastante bueno (véase más abajo).

GEV distribution for running speeds

Si se observa la distribución acumulativa sugerida por el modelo, se notará que el mejor tiempo de carrera de Usain Bolt está en la parte más baja $1\%$ cola de la distribución. Así que si nos atenemos a estos datos, y a este análisis de ejemplo de juguete, llegaríamos a la conclusión de que los tiempos de ejecución mucho más pequeños son improbables (pero obviamente, posibles). El problema obvio de este análisis es que ignora el hecho de que hemos visto mejoras año a año de los mejores tiempos de carrera. Esto nos devuelve al problema descrito en la primera parte de la respuesta, es decir, que asumir un modelo de regresión aquí es arriesgado. Otra cosa que podría mejorarse es que pudiéramos utilizar un enfoque bayesiano y suponer un previo informativo que diera cuenta de algunos conocimientos fuera de los datos sobre los tiempos de carrera fisiológicamente posibles, que podrían no haber sido observados todavía (pero, por lo que sé, esto es desconocido en este momento). Por último, ya se utilizó una teoría de valores extremos similar en la investigación deportiva, por ejemplo, por Einmahl y Magnus (2008) en la Récords en el atletismo a través de la teoría del valor extremo papel.

Podrías protestar porque no has preguntado por la probabilidad del tiempo de carrera más rápido, sino por la probabilidad de observar al corredor más rápido. Desgraciadamente, aquí no podemos hacer mucho, ya que no sabemos cuál es la probabilidad de que un corredor se convierta en atleta profesional y de que disponga de los tiempos de carrera registrados. Esto no ocurre al azar y hay muchos factores que contribuyen a que algunos corredores se conviertan en atletas profesionales y otros no (o incluso que a alguien le guste correr y corra). Para ello, tendríamos que disponer de datos detallados de toda la población de corredores, y además, dado que estás preguntando por los extremos de la distribución, los datos tendrían que ser muy grandes. Así que en esto, estoy de acuerdo con las otras respuestas.

1voto

daduffer Puntos 297

Mi primer instinto es que esto es una mala idea, pero déjame desglosar un poco el porqué.

1) Se quiere medir una variable inobservable, la habilidad latente para correr, con una observable, los tiempos de carrera registrados. Eso está bien, pero: En el problema del tanque alemán, los números de serie se generan todos a partir de la misma distribución uniforme. En tu problema, tienes que inferir la variable latente habilidad (de 7.000 millones de personas) a partir de la variable observable tiempos de carrera. En el GTP, se conocen múltiples números de serie. En tu problema, no has recogido ningún dato y sólo te basas en el máximo (Bolt). Además, pareces suponer que esta habilidad latente inobservable no está correlacionada con los tiempos de carrera reales hasta el punto de que es posible que alguien que nunca ha corrido sea mejor que Bolt. Parece absurdo.

2) Los deportistas no son muestras aleatorias de la población. Se seleccionan cuidadosamente mediante múltiples pruebas. Si asumimos que todas las personas capaces de correr probablemente han corrido con alguien al menos una vez en su vida y que cada persona ha tomado una decisión sobre si debe continuar a un nivel más alto de competencia basado en la frecuencia o por cuánto ganan estas carreras--entonces no parece tan inverosímil que Bolt realmente sea el ser humano más rápido que existe.

Estas son sólo las primeras razones que se me ocurren. Sinceramente, se está en una especie de error con esto. No hay manera de medir la "probabilidad" del tipo de cosas de las que hablas.

0 votos

Otro encuestado hizo observaciones similares y, sin duda, es cierto que estimar la probabilidad de que exista alguien más rápido que el Sr. Bolt sobre esta base es muy erróneo. También sería más interesante saber si la lógica técnica de la predicción basada en estos valores extremos es correcta en principio.

3 votos

Yo sugeriría abstraer la pregunta entonces para llegar al corazón de lo que realmente estás tratando de preguntar, ya que el contexto va a crear mucha distracción. Todavía no me queda claro qué representa la "distribución normal" a la que te refieres. ¿Tiempos reales de carrera? ¿La capacidad de correr de los atletas?

-2voto

Aksakal Puntos 11351

La respuesta es NO.

Estás asumiendo que hay una muestra de la población (atletas), y que Bolt es el máximo de esta muestra. Entonces, estás buscando la probabilidad de que el máximo de la población sea mayor que el máximo de la muestra. Esa es tu hipótesis.

¿Y si su suposición es errónea y la muestra es realmente la población?

Puedo argumentar razonablemente que todas las personas que pueden correr tuvieron la oportunidad de ganarle. Nadie lo hizo, así que él es el verdadero máximo de la población de la Tierra.

Está claro que los atletas no son una muestra aleatoria. Espero que no haya dudas al respecto. Hay un grado de aleatoriedad en cómo uno se convierte en atleta, por supuesto. Por otra parte, si uno no es un atleta, entonces sus habilidades y logros atléticos no se van a comparar con los del atleta. Puedo aceptar que alguien POTENCIALMENTE podría correr más rápido que Bolt dadas todas las condiciones de entrenamiento Y HABER entrenado tan duro como Bolt. Sin embargo, es cero la probabilidad de que saques a un no atleta y que supere a Bolt en los 100 metros lisos en condiciones de pista y campo.

0 votos

Estoy más interesado en la metodología detrás de ella es correcta, imaginar Tanques cuyos números de serie se distribuyen normalmente w / duplicados en lugar de correr la velocidad tal vez :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X