Partiendo de la siguiente definición de $\mathbf{r}_j$ en términos de coordenadas generalizadas
$$\mathbf{r}_{j}=\mathbf{r}_{j}(q_1, q_2, \ldots, q_n,t) \; ,$$
es evidente que tomando la derivada total con respecto al tiempo, llegamos a la siguiente relación
$$\dot{\mathbf{r}}_{j}=\sum_{k}\frac{\partial\mathbf{r}_{j}}{\partial q_{k}}\dot{q}_k+\frac{\partial\mathbf{r}_{j}}{\partial t} \; .$$
Pero debido a la aparición de $\dot{q}_k$ , $\dot{\mathbf{r}}_{j}$ también depende de ellos. Por lo tanto, tiene sentido tomar derivadas parciales de $\dot{\mathbf{r}}_{j}$ con respecto a la $\dot{q}_k$ y a partir de la relación anterior, obtenemos efectivamente la relación que encuentras.
Mientras que $\dot{q}_k$ es la derivada temporal de $q_k$ no puede expresarse en función del $q_j$ . La derivada es un operador, no una función de tuplas de números reales a números reales por lo que no cuenta. Físicamente, se podría decir que la diferencia está en el hecho de que una función real sobre n-tuplas sólo implica información de lo que ocurre en ese punto en ese instante concreto. Una derivada sin embargo implica información de lo que ocurre en un punto en un instante pero también en un punto diferente un instante infinitesimal antes .
O bien, otra forma de ver esto es que el estado de un sistema clásico está completamente especificado cuando se dan las posiciones y velocidades en un instante . Si sólo bastaran las posiciones, las ecuaciones del movimiento serían de primer orden y la derivada del tiempo dependería realmente de las posiciones en un instante, porque estaría totalmente determinada por ellas. Este no es el caso de las ecuaciones clásicas de segundo orden que tenemos para la mayoría de los sistemas clásicos de partículas puntuales.