11 votos

La estimación de la probabilidad de éxito, teniendo en cuenta una población de referencia

Supongamos que tenemos la siguiente situación:

Se observó a lo largo del tiempo 1000 bolos jugadores, que cada uno jugó un relativamente pequeño número de juegos (por ejemplo, 1 a 20). Se señaló que la huelga porcentaje para cada uno de los jugadores sobre el número de juegos en cada uno de esos jugadores que ha jugado.

Un nuevo jugador de bolos entra y juega 10 partidos y se pone 3 golpes.

La distribución por el número de huelgas para cualquier jugador que se supone se binomial.

Quiero calcular el "verdadero" de la probabilidad de éxito de un jugador.

Por favor, tome nota de lo siguiente:

  1. Esta no es una situación real o un problema de la escuela, solo un auto-pensó problema.
  2. Soy un estudiante con poco más de las estadísticas de educación de Estadísticas de un curso 101. Sé un poco acerca de la inferencia como la estimación de máxima verosimilitud... Así que siéntete libre de decirme áreas en las estadísticas que debo leer acerca de.
  3. Mi problema la falta de información, o si sería beneficioso para, por ejemplo, la distribución de probabilidad de éxito sea aproximadamente normal, por favor me lo dijeran.

Muchas gracias

11voto

Ted Puntos 854

Este es un gran ejemplo para ilustrar la diferencia entre frecuentista y Bayesiano enfoques para la inferencia.

Mi primer, simplista frecuentista respuesta: Si usted ya ha asumido la distribución de las huelgas es un binomio que usted no necesita saber nada acerca de los otros 1000 jugadores (otros que tal vez usted podría utilizar para comprobar su binomio asunción).

Una vez que usted tiene el binomio asunción claro, su cálculo es muy sencillo: 3/10. La varianza de este estimador es la costumbre p(1-p)/n = 0.021.

Básicamente, el 1000 a otros jugadores son irrelevantes a menos que usted piensa que hay algo interesante y no binomio acerca de la huelga de distribución (por ejemplo, la gente se mejora, ya que jugar más juegos).

Una más considerado Bayesiano manera de ver las cosas: Alternativamente, si usted está interesado en aplicar el conocimiento previo que se tiene de otros jugadores y creo que el nuevo jugador es, básicamente, una nueva muestra de la misma población, se debe pensar en Bayesiano términos.

Estimación de la distribución previa de los jugadores. Para hacer esto, usted necesita mirar su 1000 puntos de datos - 1000 jugadores que ya han sido observados, para cada uno de los cuales tiene una estimación de la probabilidad de una huelga. Cada uno de estos 1000 puntos sólo puede tomar uno de los 21 valores (de cero a veinte huelgas de los veinte) y verá una distribución en todo el campo. Si usted convertir estas puntuaciones a las proporciones (es decir, entre cero y uno) de esta distribución de probabilidad se puede aproximar razonablemente bien por una distribución de probabilidad de una variable aleatoria con una distribución Beta. Una distribución beta es totalmente caracterizada por dos parámetros, digamos a y b, pero debido a que estos parámetros no se realmente que hacer con la distribución de la que nos han preguntado acerca de (el jugador en particular la probabilidad de una huelga), pero un nivel más alto de la distribución de las llamamos hyperparameters. Usted puede desarrollar las estimaciones de estos hyperparameters de tus 1000 puntos de datos en uno de un número de maneras que no son realmente relevantes para el punto principal de tu pregunta.

Antes de que usted tiene alguna información sobre su jugador, su mejor conjetura en cuanto a su proporción de la puntuación de una huelga (vamos a llamarlo p) sería el valor más probable de la p de que la distribución Beta acabamos de montar.

Sin embargo, tenemos datos de nuestro propio jugador, no sólo a la población en general! En Dios confiamos, todos los demás deben traer los datos (me gustaría atributo de esta cita, si yo pudiera recordar donde he encontrado, lo siento). Cada vez que observamos a nuestro jugador jugar un juego y obtener una huelga o no, tenemos una nueva pieza de información precisify nuestra estimación de su proporción.

Una de las cosas interesantes acerca de la distribución beta como una distribución de probabilidad para una proporción que como recopilar nueva información a partir de datos y crear una nueva, mejora de la estimación de la proporción, la teoría de la probabilidad puede mostrar que el nuevo, mejorado la estimación es también una distribución beta - sólo una versión más concentrada. Esto es debido a que la distribución beta es lo que se conoce como un conjugado antes cuando tratando de hacer estimaciones acerca de un modelo binomial.

Es decir, si observamos z de n eventos de éxito (juegos con huelgas en este caso); y el estado de la distribución beta(a,b); la distribución posterior (estimación de la distribución de probabilidad de p dado tanto el original de 1000 puntos de datos y la nueva observación de diez juegos) es la beta(a+z, b+n-z) o (en nuestro caso), beta(a+3, b+7). Como se puede ver, más datos se vuelven menos importantes a y b son. Las matemáticas de esta es razonablemente sencillo y en muchos textos, pero no que muy interesante (para mí, de todos modos).

Si usted tiene R puede ver un ejemplo ejecutando el siguiente código (y si usted no tiene R, usted debe conseguir - es gratis y es impresionante para ayudar a pensar a través de este tipo de problema). Esto supone que la distribución previa de los jugadores pueden ser modelados por la beta(2,5) - esto se acaba de hacer por mí. En realidad, hay maneras que usted puede hacer una estimación de las cifras de a y b que mejor que haciendo 2 y 5 porque creo que la curva se ve bien.

Como verá si se ejecuta este estilizado ejemplo, la estimación de la probabilidad de que la puntuación de una huelga, dada una distribución previa de la beta(2,5), es de 0.29 en lugar de 0.30. También, podemos crear un intervalo de credibilidad, que es francamente más intuitiva y más fácil de explicar que un intervalo de confianza (ver muchas de las preguntas y las discusiones sobre el internet de la diferencia entre los dos, incluso en CrossValidated).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

Luego de observar a su nuevo jugador; y calcular una nueva distribución posterior para el nuevo jugador. De hecho, esto dice "teniendo en cuenta lo que acaba de observar, donde en la distribución de los jugadores pensamos que esta persona es más probable que sea?"

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X