$\DeclareMathOperator{\E}{\mathbb{E}}$
Si me tomé todo el conjunto de datos y se divide el número total de bolas que tiene un bateador fuera por el número total de bolas lanzan puedo ver que yo tendría la probabilidad promedio de que un jugador de bolos de llegar a un bateador fuera de ella será de alrededor de 0.03 (esperemos que no he ido mal ya?)
Por desgracia, este es tal vez ya no sea exactamente lo que estás buscando.
Supongamos que tenemos un solo jugador, y dos bateadores: Don Bradman y a mí. (Sé muy poco acerca de cricket, así que si yo estoy haciendo algo fuera de aquí, que me haga saber.) Los juegos de ir a algo como:
- No va a batear, y es en el 99 tazón.
- Voy a batear, y estoy de inmediato.
- No va a batear, y es en el 99 tazón.
- Voy a batear, y estoy de inmediato.
En este caso, hay cuatro outs de 200 tazones de fuente, por lo que la probabilidad marginal de un jugador de bolos de llegar a un bateador fuera se estima como 4/200 = 2%. Pero en realidad, el Don de la probabilidad de estar fuera se parece más a un 1%, mientras que la mía es del 100%. Así que si usted elige un bateador y un jugador al azar, la probabilidad de que este jugador obtiene este bateador fuera de este tiempo es más como (50% de probabilidad de que usted escogió No) * (1% de probabilidad de que salga) + (50% de probabilidad de que usted me recogió) * (100% de probabilidad de que salga) = 50.05%. Pero si usted elige un tono al azar, entonces es un 2% de probabilidad de que salga. Así que usted necesita pensar cuidadosamente acerca de cuál de esos muestreo de modelos en los que está pensando.
De todos modos, su propuesta no está loco. Más simbólicamente, vamos a $b$ ser el bateador $m$ el bateador; deje $f(b, m)$ la probabilidad de que $b$ pasa $m$. Entonces estás diciendo:
$$
f(b, m)
= \frac{\E_{m}[ f(b, m') ] \E_{b'}[ f(b, m) ]}{\E_{b', m'}[ f(b', m') ]}
.$$
Este tiene la propiedad de que:
$$
\E_{b,m}[f(b, m)] = \frac{\E_{b,m'}[ f(b, m') ] \E_{b,m}[ f(b, m) ]}{\E_{b',m'}[ f(b', m') ]} = \E_{b,m}[ f(b, m) ]
;$$
es igualmente coherente si se toma en los medios más que sólo $b$ o $m$.
Tenga en cuenta que en este caso se pueden asignar
\begin{gather}
C := \E_{b, m}[f(b, m)] \\
g(b) := \E_{m}[f(b, m)] / \sqrt{C} \\
h(m) := \E_{b}[f(b, m)] / \sqrt{C} \\
\text{so that } f(b, m) = g(b) \, h(m)
.\end{reunir}
Su hipótesis es que se puede observar a $g(b)$ $h(m)$ razonablemente bien a partir de los datos. Como siempre que (a) usted tiene bastantes juegos [que hace] y (b) los jugadores juegan el uno al otro con similares razonablemente frecuencias, entonces eso está bien.
Elaborar en (b) un poco: imagine que tiene los datos de un montón de juegos profesionales, y un montón de juegos de mí jugando con mis amigos. Si no hay solapamiento, tal vez me parecen realmente buenas comparadas con las de mis amigos, así que tal vez usted piensa que yo soy mucho mejor que el peor jugador profesional. Esto es obviamente falso, pero usted no tiene los datos para refutar eso. Si usted tiene un poco de superposición, en la cual he jugado contra un jugador profesional de un tiempo, y se puso destruido, entonces los datos no admiten la clasificación a mí y a mis amigos, como todos peor que los pros, pero su método no cuenta para él. Técnicamente, el problema aquí es que estás asumiendo que usted tiene una buena muestra, por ejemplo,$\E_{b'}[f(b', m)]$, pero su $b'$ distribución está sesgada.
Por supuesto, sus datos no se verán esta mal, pero dependiendo de la estructura de la liga o lo que sea, puede tener algunos elementos de ese problema.
Usted puede tratar de trabajar con un enfoque diferente. El modelo propuesto por $f$ es en realidad una instancia de bajo rango de la factorización de la matriz de los modelos comunes en el filtrado colaborativo, como en el de Netflix problema. Allí, elija la función de $g(b)$ $h(m)$ a de dimensión $r$, y representan el $f(b, m) = g(b)^T h(m)$. Se puede interpretar $r>1$ complexifying su modelo a partir de una sola "calidad" de puntuación a fin de tener las puntuaciones a lo largo de múltiples dimensiones: tal vez ciertos jugadores hacer mejor frente a ciertos tipos de bateadores. (Esto se ha hecho por ejemplo, para los juegos de la NBA.)
La razón por la que estamos llamados factorización de la matriz es porque si usted hace una matriz de $F$ con tantas filas como jugadores y tantas columnas como bateadores, puedes escribir esto como
$$
\underbrace{\begin{bmatrix}
f(b_1, m_1) & f(b_1, m_2) & \dots & f(b_1, m_M) \\
f(b_2, m_1) & f(b_2, m_2) & \dots & f(b_2, m_M) \\
\vdots & \vdots & \ddots& \vdots \\
f(b_N, m_1) & f(b_N, m_2) & \dots & f(b_N, m_M)
\end{bmatrix}}_{F}
=
\underbrace{\begin{bmatrix}
g(b_1) \\
\vdots \\
g(b_N)
\end{bmatrix}}_{G}
\underbrace{\begin{bmatrix}
h(m_1) \\
\vdots \\
h(m_M)
\end{bmatrix}^T}_{H^T}
$$
donde has factorizada de una $N \times M$ matriz $F$ a una $N \times r$ $G$ e una $M \times r$$H$.
Por supuesto, no se llega a observar $F$ directamente. El modelo habitual es que se llega a observar ruidoso entradas de $F$ al azar; en su caso, se llega a observar un sorteo de una distribución binomial con un número aleatorio de los ensayos para cada entrada de $F$.
Usted podría construir un modelo de probabilidad, como, por ejemplo:
\begin{gather}
G_{ik} \sim \mathcal{N}(0, \sigma_G^2) \\
H_{jk} \sim \mathcal{N}(0, \sigma_H^2) \\
F_{ij} = G_i^T H_j \\
R_{ij} \sim \mathcal{Binomial}(n_{ij}, F_{ij})
\end{reunir}
donde el $n_{ij}$ $R_{ij}$ se observan, y que probablemente iba a poner algo de hyperpriors más $\sigma_G$/$\sigma_H$ y hacer inferencia por ejemplo, en el Stan.
Este no es un modelo perfecto: por un lado, ignora que $n$ se correlaciona con las puntuaciones (como ya he mencionado en la primera sección), y lo que es más importante, no restringir $F_{ij}$ $[0, 1]$ (probablemente el uso de una logística sigmoide o similar para conseguir que). Un artículo relacionado, con más compleja priores de $G$ $H$ (pero que no use el binomial de probabilidad) es: Salakhutdinov y Mnih, probabilístico Bayesiano factorización de la matriz utilizando la cadena de Markov Monte Carlo, ICML 2008. (doi / autor del pdf)