Por definición, la probabilidad de masa en el intervalo de $[x, x + \mathrm d x]$ tiempo $t$ es igual a $f (x,t) \,\mathrm d x$. Bajo la influencia de la ecuación diferencial $\dot x = g (x,t)$, los extremos del intervalo de flujo de
$$\begin{aligned} x &\mapsto x + g (x,t) \,\mathrm d t\\ x + \mathrm d x &\mapsto x + \mathrm d x + g (x + \mathrm d x,t) \,\mathrm d t = x + \mathrm d x + g (x,t) \,\mathrm d t + \partial_x g (x,t) \,\mathrm d x \,\mathrm d t\end{aligned}$$
Por lo tanto, el intervalo de $[x, x + \mathrm d x]$ es asignado a un intervalo de ancho
$$\mathrm d x + \partial_x g (x,t) \,\mathrm d x \,\mathrm d t = \left( 1 + \partial_x g (x,t) \,\mathrm d t \right) \mathrm d x$$
Dado que la probabilidad de masa se conserva,
$$f (x,t) \,\mathrm d x = f (x + g (x,t) \,\mathrm d t, t + \mathrm d t) \, \left( 1 + \partial_x g (x,t) \,\mathrm d t \right) \mathrm d x$$
Dividir ambos lados por $\mathrm d x$, obtenemos
$$\begin{aligned} f (x,t) &= f (x + g (x,t) \,\mathrm d t, t + \mathrm d t) \, \left( 1 + \partial_x g (x,t) \,\mathrm d t \right)\\ &= \left( f (x,t) + \partial_x f (x,t) \, g (x,t) \,\mathrm d t + \partial_t f (x,t) \,\mathrm d t \right) \, \left( 1 + \partial_x g (x,t) \,\mathrm d t \right)\\ &= f (x,t) + \partial_x f (x,t) \, g (x,t) \,\mathrm d t + \partial_t f (x,t) \,\mathrm d t + f (x,t) \, \partial_x g (x,t) \,\mathrm d t \end{aligned}$$
donde los dos términos de la multiplicación de $\left( \mathrm d t \right)^2 := 0$ fueron descartados. Por lo tanto,
$$\partial_x \, f (x,t) \, g (x,t) + \partial_t \, f (x,t) + f (x,t) \, \partial_x g (x,t) = 0$$
o, usando la derivada del producto, se obtiene un Fokker-Planck de la PDE
$$\color{blue}{\partial_t \, f + \partial_x \left( f \cdot g\right) = 0}$$
Esta es una muy sucio derivación. Sería bueno tener un riguroso uno.