Este es un gran ejemplo para ilustrar la diferencia entre frecuentista y Bayesiano enfoques para la inferencia.
Mi primer, simplista frecuentista respuesta:
Si usted ya ha asumido la distribución de las huelgas es un binomio que usted no necesita saber nada acerca de los otros 1000 jugadores (otros que tal vez usted podría utilizar para comprobar su binomio asunción).
Una vez que usted tiene el binomio asunción claro, su cálculo es muy sencillo: 3/10. La varianza de este estimador es la costumbre p(1-p)/n = 0.021.
Básicamente, el 1000 a otros jugadores son irrelevantes a menos que usted piensa que hay algo interesante y no binomio acerca de la huelga de distribución (por ejemplo, la gente se mejora, ya que jugar más juegos).
Una más considerado Bayesiano manera de ver las cosas:
Alternativamente, si usted está interesado en aplicar el conocimiento previo que se tiene de otros jugadores y creo que el nuevo jugador es, básicamente, una nueva muestra de la misma población, se debe pensar en Bayesiano términos.
Estimación de la distribución previa de los jugadores. Para hacer esto, usted necesita mirar su 1000 puntos de datos - 1000 jugadores que ya han sido observados, para cada uno de los cuales tiene una estimación de la probabilidad de una huelga. Cada uno de estos 1000 puntos sólo puede tomar uno de los 21 valores (de cero a veinte huelgas de los veinte) y verá una distribución en todo el campo. Si usted convertir estas puntuaciones a las proporciones (es decir, entre cero y uno) de esta distribución de probabilidad se puede aproximar razonablemente bien por una distribución de probabilidad de una variable aleatoria con una distribución Beta. Una distribución beta es totalmente caracterizada por dos parámetros, digamos a y b, pero debido a que estos parámetros no se realmente que hacer con la distribución de la que nos han preguntado acerca de (el jugador en particular la probabilidad de una huelga), pero un nivel más alto de la distribución de las llamamos hyperparameters. Usted puede desarrollar las estimaciones de estos hyperparameters de tus 1000 puntos de datos en uno de un número de maneras que no son realmente relevantes para el punto principal de tu pregunta.
Antes de que usted tiene alguna información sobre su jugador, su mejor conjetura en cuanto a su proporción de la puntuación de una huelga (vamos a llamarlo p) sería el valor más probable de la p de que la distribución Beta acabamos de montar.
Sin embargo, tenemos datos de nuestro propio jugador, no sólo a la población en general! En Dios confiamos, todos los demás deben traer los datos (me gustaría atributo de esta cita, si yo pudiera recordar donde he encontrado, lo siento). Cada vez que observamos a nuestro jugador jugar un juego y obtener una huelga o no, tenemos una nueva pieza de información precisify nuestra estimación de su proporción.
Una de las cosas interesantes acerca de la distribución beta como una distribución de probabilidad para una proporción que como recopilar nueva información a partir de datos y crear una nueva, mejora de la estimación de la proporción, la teoría de la probabilidad puede mostrar que el nuevo, mejorado la estimación es también una distribución beta - sólo una versión más concentrada. Esto es debido a que la distribución beta es lo que se conoce como un conjugado antes cuando tratando de hacer estimaciones acerca de un modelo binomial.
Es decir, si observamos z de n eventos de éxito (juegos con huelgas en este caso); y el estado de la distribución beta(a,b); la distribución posterior (estimación de la distribución de probabilidad de p dado tanto el original de 1000 puntos de datos y la nueva observación de diez juegos) es la beta(a+z, b+n-z) o (en nuestro caso), beta(a+3, b+7). Como se puede ver, más datos se vuelven menos importantes a y b son. Las matemáticas de esta es razonablemente sencillo y en muchos textos, pero no que muy interesante (para mí, de todos modos).
Si usted tiene R puede ver un ejemplo ejecutando el siguiente código (y si usted no tiene R, usted debe conseguir - es gratis y es impresionante para ayudar a pensar a través de este tipo de problema). Esto supone que la distribución previa de los jugadores pueden ser modelados por la beta(2,5) - esto se acaba de hacer por mí. En realidad, hay maneras que usted puede hacer una estimación de las cifras de a y b que mejor que haciendo 2 y 5 porque creo que la curva se ve bien.
Como verá si se ejecuta este estilizado ejemplo, la estimación de la probabilidad de que la puntuación de una huelga, dada una distribución previa de la beta(2,5), es de 0.29 en lugar de 0.30. También, podemos crear un intervalo de credibilidad, que es francamente más intuitiva y más fácil de explicar que un intervalo de confianza (ver muchas de las preguntas y las discusiones sobre el internet de la diferencia entre los dos, incluso en CrossValidated).
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
Luego de observar a su nuevo jugador; y calcular una nueva distribución posterior para el nuevo jugador. De hecho, esto dice "teniendo en cuenta lo que acaba de observar, donde en la distribución de los jugadores pensamos que esta persona es más probable que sea?"