9 votos

Modelado de jugadores de cricket de llegar bateadores fuera

Tengo un conjunto de datos detallando un gran número de juegos de cricket (unos mil). En el cricket "jugadores" repetidamente lanzar una pelota en una sucesión de "bateadores". El jugador está tratando de que el bateador "fuera". En este sentido, es muy similar a la de los lanzadores y bateadores de béisbol.

Si me tomé todo el conjunto de datos y se divide el número total de bolas que tiene un bateador fuera por el número total de bolas de rodó, puedo ver que yo tendría la probabilidad promedio de que un jugador de bolos de llegar a un bateador fuera de ella será de alrededor de 0.03 (esperemos que no he ido mal ya?)

Lo que me interesa es lo que puedo hacer para intentar y calcular la probabilidad de un determinado bateador de ser jugado por un jugador de bolos en la siguiente bola.

El conjunto de datos es lo suficientemente grande que cualquier jugador de bolos se han rodado miles de bolas para una amplia gama de bateadores. Así que creo que podría simplemente dividir el número de outs que un jugador logra por el número de bolas que se ha lanzado para calcular una nueva probabilidad de que el jugador de bolos de llegar a un cabo de la siguiente bola.

Mi problema es el conjunto de datos no es lo suficientemente grande como para garantizar que un determinado jugador ha lanzado un número estadísticamente significativo de bolas en cualquier bateadores. Así que si estoy interesado en calcular la probabilidad de una salida para un determinado jugador de bolos frente a una específica bateadores no creo que esto no puede ser hecho en el mismo modo simplista.

Mi pregunta es si el enfoque siguiente es válido:

  • A través de todo el conjunto de datos la probabilidad de que una bola de conseguir una es de 0,03.

  • Si tengo que calcular que, en promedio, Un jugador de bolos tiene una probabilidad de estar en fuera de 0,06 (es decir, dos veces tan probable como un promedio jugador),

  • y en promedio, el bateador B había una probabilidad de estar fuera de 0.01 (un tercio de probabilidades de un promedio de bateadores),

  • entonces es válido decir que la probabilidad de que determinados bateador ser el próximo balón a su propio jugador va a ser 0.06 * (0.01 / 0.03) = 0.02?

2voto

Bauna Puntos 176

$\DeclareMathOperator{\E}{\mathbb{E}}$

Si me tomé todo el conjunto de datos y se divide el número total de bolas que tiene un bateador fuera por el número total de bolas lanzan puedo ver que yo tendría la probabilidad promedio de que un jugador de bolos de llegar a un bateador fuera de ella será de alrededor de 0.03 (esperemos que no he ido mal ya?)

Por desgracia, este es tal vez ya no sea exactamente lo que estás buscando.

Supongamos que tenemos un solo jugador, y dos bateadores: Don Bradman y a mí. (Sé muy poco acerca de cricket, así que si yo estoy haciendo algo fuera de aquí, que me haga saber.) Los juegos de ir a algo como:

  • No va a batear, y es en el 99 tazón.
  • Voy a batear, y estoy de inmediato.
  • No va a batear, y es en el 99 tazón.
  • Voy a batear, y estoy de inmediato.

En este caso, hay cuatro outs de 200 tazones de fuente, por lo que la probabilidad marginal de un jugador de bolos de llegar a un bateador fuera se estima como 4/200 = 2%. Pero en realidad, el Don de la probabilidad de estar fuera se parece más a un 1%, mientras que la mía es del 100%. Así que si usted elige un bateador y un jugador al azar, la probabilidad de que este jugador obtiene este bateador fuera de este tiempo es más como (50% de probabilidad de que usted escogió No) * (1% de probabilidad de que salga) + (50% de probabilidad de que usted me recogió) * (100% de probabilidad de que salga) = 50.05%. Pero si usted elige un tono al azar, entonces es un 2% de probabilidad de que salga. Así que usted necesita pensar cuidadosamente acerca de cuál de esos muestreo de modelos en los que está pensando.


De todos modos, su propuesta no está loco. Más simbólicamente, vamos a $b$ ser el bateador $m$ el bateador; deje $f(b, m)$ la probabilidad de que $b$ pasa $m$. Entonces estás diciendo:

$$ f(b, m) = \frac{\E_{m}[ f(b, m') ] \E_{b'}[ f(b, m) ]}{\E_{b', m'}[ f(b', m') ]} .$$

Este tiene la propiedad de que: $$ \E_{b,m}[f(b, m)] = \frac{\E_{b,m'}[ f(b, m') ] \E_{b,m}[ f(b, m) ]}{\E_{b',m'}[ f(b', m') ]} = \E_{b,m}[ f(b, m) ] ;$$ es igualmente coherente si se toma en los medios más que sólo $b$ o $m$.

Tenga en cuenta que en este caso se pueden asignar \begin{gather} C := \E_{b, m}[f(b, m)] \\ g(b) := \E_{m}[f(b, m)] / \sqrt{C} \\ h(m) := \E_{b}[f(b, m)] / \sqrt{C} \\ \text{so that } f(b, m) = g(b) \, h(m) .\end{reunir} Su hipótesis es que se puede observar a $g(b)$ $h(m)$ razonablemente bien a partir de los datos. Como siempre que (a) usted tiene bastantes juegos [que hace] y (b) los jugadores juegan el uno al otro con similares razonablemente frecuencias, entonces eso está bien.

Elaborar en (b) un poco: imagine que tiene los datos de un montón de juegos profesionales, y un montón de juegos de mí jugando con mis amigos. Si no hay solapamiento, tal vez me parecen realmente buenas comparadas con las de mis amigos, así que tal vez usted piensa que yo soy mucho mejor que el peor jugador profesional. Esto es obviamente falso, pero usted no tiene los datos para refutar eso. Si usted tiene un poco de superposición, en la cual he jugado contra un jugador profesional de un tiempo, y se puso destruido, entonces los datos no admiten la clasificación a mí y a mis amigos, como todos peor que los pros, pero su método no cuenta para él. Técnicamente, el problema aquí es que estás asumiendo que usted tiene una buena muestra, por ejemplo,$\E_{b'}[f(b', m)]$, pero su $b'$ distribución está sesgada.

Por supuesto, sus datos no se verán esta mal, pero dependiendo de la estructura de la liga o lo que sea, puede tener algunos elementos de ese problema.


Usted puede tratar de trabajar con un enfoque diferente. El modelo propuesto por $f$ es en realidad una instancia de bajo rango de la factorización de la matriz de los modelos comunes en el filtrado colaborativo, como en el de Netflix problema. Allí, elija la función de $g(b)$ $h(m)$ a de dimensión $r$, y representan el $f(b, m) = g(b)^T h(m)$. Se puede interpretar $r>1$ complexifying su modelo a partir de una sola "calidad" de puntuación a fin de tener las puntuaciones a lo largo de múltiples dimensiones: tal vez ciertos jugadores hacer mejor frente a ciertos tipos de bateadores. (Esto se ha hecho por ejemplo, para los juegos de la NBA.)

La razón por la que estamos llamados factorización de la matriz es porque si usted hace una matriz de $F$ con tantas filas como jugadores y tantas columnas como bateadores, puedes escribir esto como

$$ \underbrace{\begin{bmatrix} f(b_1, m_1) & f(b_1, m_2) & \dots & f(b_1, m_M) \\ f(b_2, m_1) & f(b_2, m_2) & \dots & f(b_2, m_M) \\ \vdots & \vdots & \ddots& \vdots \\ f(b_N, m_1) & f(b_N, m_2) & \dots & f(b_N, m_M) \end{bmatrix}}_{F} = \underbrace{\begin{bmatrix} g(b_1) \\ \vdots \\ g(b_N) \end{bmatrix}}_{G} \underbrace{\begin{bmatrix} h(m_1) \\ \vdots \\ h(m_M) \end{bmatrix}^T}_{H^T} $$ donde has factorizada de una $N \times M$ matriz $F$ a una $N \times r$ $G$ e una $M \times r$$H$.

Por supuesto, no se llega a observar $F$ directamente. El modelo habitual es que se llega a observar ruidoso entradas de $F$ al azar; en su caso, se llega a observar un sorteo de una distribución binomial con un número aleatorio de los ensayos para cada entrada de $F$.

Usted podría construir un modelo de probabilidad, como, por ejemplo:

\begin{gather} G_{ik} \sim \mathcal{N}(0, \sigma_G^2) \\ H_{jk} \sim \mathcal{N}(0, \sigma_H^2) \\ F_{ij} = G_i^T H_j \\ R_{ij} \sim \mathcal{Binomial}(n_{ij}, F_{ij}) \end{reunir} donde el $n_{ij}$ $R_{ij}$ se observan, y que probablemente iba a poner algo de hyperpriors más $\sigma_G$/$\sigma_H$ y hacer inferencia por ejemplo, en el Stan.

Este no es un modelo perfecto: por un lado, ignora que $n$ se correlaciona con las puntuaciones (como ya he mencionado en la primera sección), y lo que es más importante, no restringir $F_{ij}$ $[0, 1]$ (probablemente el uso de una logística sigmoide o similar para conseguir que). Un artículo relacionado, con más compleja priores de $G$ $H$ (pero que no use el binomial de probabilidad) es: Salakhutdinov y Mnih, probabilístico Bayesiano factorización de la matriz utilizando la cadena de Markov Monte Carlo, ICML 2008. (doi / autor del pdf)

0voto

ucker Puntos 70

No se puede inferir la correcta probabilidad de que B va a estar fuera, dado que es el jugador de bolos si a y B nunca conoció en el campo, sólo se basa en sus promedios con otros jugadores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X