No va a haber una fórmula para esta distancia (como para la Manhattan, la Euclidiana, etc). Los valores deben basarse en la tabla dada. Como mínimo, nos gustaría tener:
- la distancia del producto a sí mismo es cero.
- la distancia entre dos productos es menor si se compran juntos más a menudo.
Dejemos que $n(p,q)$ sea el número de veces que $p$ y $q$ se compran juntos. Mi primer intento sería: $$d(p,q)=\begin{cases} 0\quad &\text{ if }p=q \\ 1/n(p,q)\quad &\text{ if } p\ne q\end{cases}$$
A continuación, puedes hacer algunos cálculos para comprobar si se cumplen esas propiedades deseables (la simetría está bien, la desigualdad del triángulo es poco probable que se cumpla).
Las distancias más sofisticadas son:
$$d_1(p,q)=\begin{cases} 0\quad &\text{ if }p=q \\ \sum_{r}n(p,r)/n(p,q)\quad &\text{ if } p\ne q\end{cases}$$ que puede interpretarse como el recíproco de la probabilidad condicional de comprar $q$ , después de haber comprado $p$ . Por desgracia, esto no es simétrico.
$$d_2(p,q)=\begin{cases} 0\quad &\text{ if }p=q \\ \sum_{r}(n(p,r)+n(q,r))/n(p,q)\quad &\text{ if } p\ne q\end{cases}$$ que es una versión simétrica de $d_1$ pero no tan transparente.
Obtener la desigualdad del triángulo a partir de algo así sería inusual. Pero en las aplicaciones esto no es necesariamente un problema.