7 votos

¿Debería ser la tasa de fumble de los equipos de la NFL una distribución normal?

Hay un montón de estadísticas basura circulando por Internet en relación con los Patriots, pero tenía curiosidad por saber qué tienen que decir al respecto los expertos en estadística.

La pregunta principal es: ¿en qué casos la distribución de balones perdidos de la temporada (y) por equipo de la NFL (x) sería una distribución normal? ¿En qué casos no?

Mi opinión es sencilla: sería una distribución normal si el porcentaje de fumbles de cada equipo por partido/temporada fuera igual (lo cual es mucho suponer).

Parecería cada vez menos normal cuanta más influencia tuvieran factores independientes y no aleatorios, como la habilidad del jugador, la forma de jugar, el entrenamiento, los incentivos, las cualidades del terreno de juego, las posibles trampas o cualquier otro factor, en los porcentajes de fumbles.

¿Es correcto mi proceso de pensamiento o no?

También he oído un lote de gente comentando que la distribución de fumbles por temporada por equipo de la NFL es en realidad una distribución de Poisson.

He tratado antes con distribuciones de Poisson, y esto me parece absurdo y completamente fuera de lugar, aunque podría estar equivocado. ¿No se suele utilizar una distribución de Poisson en casos totalmente distintos? Pensaba que se usaba para modelar cuando una llamada podría entrar en la siguiente hora, o cuando un dado podría salir 6 después de N lanzamientos. Puedo ver esto modelando la distribución de fumbles de N jugadas, ¿pero comparando los fumbles de temporada de los equipos de la NFL?

Cualquier idea se agradece --- no estoy super metido en este asunto de los medios --- apenas me interesa el fútbol -- me interesaban más los números. Ni siquiera creo que los datos en cuestión aquí (que la tasa de fumble de los Patriots es un valor atípico) fueron siquiera recogidos o apropiados lograron responder a la pregunta correcta en cualquier caso.

1 votos

¿Qué o quiénes son la NFL y los Patriots? Realmente no me importa, y parece que aquí sólo hay detalles, pero me siento obligado a señalar que éste es un foro internacional y que es mejor no suponer que lo que se conoce bien a nivel local se conoce bien a nivel mundial.

1 votos

Además, ¿te refieres a la distribución de balones perdidos por partido de un equipo individual por temporada, o de todos los equipos por partido en una temporada concreta, o de todos los equipos por partido a lo largo del tiempo?

1 votos

Esencialmente, para contextualizar, se produjeron datos (posiblemente falsos) que mostraban que un equipo deportivo, llamado los Patriots, eran un caso atípico en términos de "número de fumbles por temporada". Un fumble es básicamente un evento significativo en el juego en el que un jugador que lleva el balón es golpeado y pierde el balón. Se considera un acontecimiento relativamente aleatorio, o impredecible, aunque eso es más de lo que se trata. Los gráficos de "# fumbles" por # equipos muestran una distribución relativamente normal, con un equipo -acusado de hacer trampas- como un valor atípico significativo. Algunos afirman que no se trata de una distribución normal.

7voto

ceolwulf Puntos 23

Teóricamente, una distribución normal tiene una probabilidad no nula de números negativos. Así que eso está fuera. Una normal también tiene una distribución totalmente continua, mientras que las tasas de fumble serían discretas o racionales.

Podría estar muy cerca, y lo suficientemente bueno, por ejemplo, la suma de muchos binomios (tuvo un fumble o no con x% de probabilidad, sumado a través de 100 juegos) se aproxima a lo que parece una curva de campana normal.

La gente recurre a poisson porque es una variable de recuento discreta, con resultados enteros definidos a partir de resultados independientes; es decir, si cada jugada tuviera una probabilidad de fumble consistente, entonces a lo largo de 100 jugadas el recuento de fumbles del resultado final tendría una distribución poisson.

Si hay alguna correlación dentro de los rangos, entonces no será ninguna distribución teórica (limpia). Si, por ejemplo, muchos balones perdidos reducen el número total de jugadas en ese partido, se trata de una puntuación autocorrelacionada y las cosas se complican. Creo que si todas tus primeras doce jugadas tienen un fumble (no es probable pero posible), entonces puede que no consigas más. Definitivamente no es una suma independiente de probabilidades iguales.

Si se permite al entrenador retirar a un jugador que ha tenido varios fumbles, entonces el índice disminuiría a partir de ese momento, otra no independencia de la puntuación.

En cualquier caso, la distribución real observada podría parecerse mucho a una normal. ¿Tienes datos con los que podamos jugar?

EDIT: Vemos algunos datos en este enlace: http://www.sharpfootballanalysis.com/blog/2015/the-new-eng;los-patriotas-de-la-tierra-se-hicieron-sisteriosamente-a-prueba-de-fumble-en-2007 Gracias Affine por encontrarlo.

Y en ese artículo la afirmación se hace más explícita: "Basándonos en la suposición de que las jugadas por fumble siguen una distribución normal, se esperaría ver, según la fluctuación aleatoria, los resultados que los Patriots han obtenido desde 2007 una vez en 5842 ocasiones."

Lo cual es una hipótesis malformada, nunca te importaría la probabilidad de una respuesta exacta, la cuestión de interés es cuán probable es cualquier resultado este extremo O SUPERIOR, combinados. Un resultado puntual tiene una probabilidad extremadamente rara, pero si hay una cola gorda en la distribución, entonces tal vez resultados más extremos pueden ocurrir, y el evento atípico no es realmente tan extremo. Como esta es una distribución inversa, Toques por Fumble, considere ambas variables como poisson aleatoria, usted consigue tantos toques por juego y usted ve tantos fumbles por juego. La proporción tendrá una cola larga, porque es posible tener muchos toques con pocos fumbles. El valor atípico es de esperar, incluso mirando los resultados de la década anterior, hubo un valor atípico en 56 TpF que no recibió ningún comentario del autor del blog.

0 votos

Yo mismo tendría que buscar datos fiables, ya que la mayoría de los datos que se difunden no sólo están mal definidos, sino que además están elaborados por personas con intereses personales. En realidad, para aclararlo, se está analizando la tasa de fumbles, no el número total de fumbles. Error mío. Es el total de fumbles sobre el total de jugadas ejecutadas por un ataque en particular. Sigo sin tener claro por qué la "tasa de balones perdidos" o balones perdidos/jugadas (y) por el equipo (x) se parecería a una distribución de Poisson. Parece que sería una distribución binomial si cada equipo tuviera (más o menos) la misma tasa general de fumbles durante una temporada.

0 votos

Parece lógico que algunos jugadores sean más propensos a fallar que otros, pero ¿por qué este factor no se distribuye uniformemente entre los equipos a lo largo de un conjunto de años? Puede que sí, pero puede que no. Un argumento similar se puede esgrimir para dejar en el banquillo a un jugador propenso a las pérdidas de balón. Seguramente hay diferencias en la decisión, pero no son importantes. Digamos que la mayoría de los equipos dejarían en el banquillo a un jugador después de 2 o 3 pérdidas de balón. ¿Es esa diferencia menor... suficiente para compensar la, en comparación, mucho mayor influencia de los factores aleatorios en la conformación de la normalidad de la distribución?

0 votos

Una tasa no puede ser Poisson por definición. Poisson es un resultado de conteo, como ¿cuántos goles ha marcado un equipo de fútbol? Será (0,1,2,3, ...) y nunca 0,14 como sería una tasa de fallos. El mismo argumento se aplica para una Normal/Gaussiana, porque define una probabilidad positiva a resultados fuera del rango [0,1] donde su tasa debería sumar 100% de probabilidad. Sin embargo, eso es semántica, la pregunta es probablemente ¿cómo de simétricos son los resultados respecto a la media?

7voto

AdamSane Puntos 1825

¿sería la distribución de los fumbles de la temporada (y) por equipo de la NFL (x) una distribución normal?

En ningún caso una variable aleatoria no negativa y discreta es realmente normal.

En algunas circunstancias (discreción aparte) podría no ser terrible como aproximación, pero no sería la primera aproximación que yo miraría.

" sería una distribución normal si la tasa de fumble de cada equipo por partido/temporada es igual "

-- no, eso no sirve... aunque la homogeneidad podría llevar a una distribución menos sesgada que de otro modo.

" la distribución de fumbles/temporada por equipo de la NFL es en realidad una distribución de Poisson "

-- Bueno, al menos no se descarta inmediatamente por el dominio de la variable, pero (excepto quizás como una aproximación aproximada) pensaría que se rechazaría fácilmente como una posibilidad; espero que la heterogeneidad (a través de la composición del equipo, la oposición, las condiciones, etc.) lo haría más fuertemente sesgado; también puede haber una posibilidad de cierta dependencia serial (fuera de la causada por cambios intermitentes resultantes de la heterogeneidad).

"*para modelar cuándo puede entrar una llamada en la próxima hora, o cuándo un dado puede salir 6 después de N lanzamientos*"

  • cuando una llamada podría venir es continua, así que no.

  • "cuando un dado puede salir 6..." -- De nuevo, no. Su descripción de lo que la variable aleatoria será no es del todo claro allí, pero que suena como uno de los "número de lanzamientos a la primera 6" (una distribución geométrica), "número de lanzamientos a la Nth 6" (una binomial negativa) o "número de 6 en N lanzamientos" (una binomial) - pero incluso si se refería a otra cosa, todavía no será Poisson. (Nótese que ' dados es plural, ' morir es singular, así que sólo ' un dado '. Necesita al menos dos de ellos para tener ' dados ')

En comparación, la de "fumbles per season" siendo Poisson es al menos plausible como sugerencia, pero creo que por diversas razones tampoco será Poisson.

0 votos

Creo que puedo estar confundiendo la distribución de Poisson y la distribución exponencial como ilustra este gráfico de aquí: statlect.com/uddpoi1.htm --- Gracias por la explicación, sin embargo, puede que necesite leer un poco más sobre Poisson.

0 votos

Ah. Ése sería sin duda un modelo plausible para la variable "tiempo hasta la próxima llamada telefónica". (Aunque probablemente no para la del dado, ya que los lanzamientos son un proceso de recuento).

0 votos

Creo que la distribución exponencial se parece más a (probabilidad de que salgan los seis primeros en los próximos N lanzamientos) que a que llegue una llamada en los próximos N minutos. Es decir, la probabilidad aumenta geométricamente con N, es la misma en cada momento y no tiene memoria.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X