Aquí está mi respuesta, que es básicamente una versión ampliada de Greg Gravitón la respuesta.
La pregunta de por qué uno puede tratar de posición y velocidad como variables independientes se plantea en la definición de la Lagrangiana $L$ a sí mismo, antes de que uno piensa acerca de la variación de la acción $S:=\int_{t_i}^{t_f}dt \ L$, y por lo tanto tiene nada que ver con el cálculo de la variación.
I) Por un lado, primero vamos a considerar el papel de la Lagrangiana.
Vamos a no ser debido a un arbitrario pero fijo instante de tiempo $t_0\in [t_i,t_f]$. El (instantánea) de Lagrange $L(q(t_0),v(t_0),t_0)$ es una función tanto de la posición instantánea $q(t_0)$ y la velocidad instantánea $v(t_0)$ en el instante $t_0$.
Aquí $q(t_0)$ y $v(t_0)$ son independientes de las variables. Tenga en cuenta que el (instantánea) de Lagrange $L(q(t_0),v(t_0),t_0)$ no dependen de los últimos $t<t_0$ ni el futuro $t>t_0$. (Uno podría objetar que el perfil de velocidad $\dot{q}\equiv\frac{dq}{dt}:[t_i,t_f]\to\mathbb{R}$ es la derivada de la posición del perfil de $p:[t_i,t_f]\to\mathbb{R}$, entonces, ¿cómo puede $q(t_0)$ y $v(t_0)$ ser realmente independiente de las variables? El punto es que, dado que la ecuación de movimiento es de 2º orden, uno tiene derecho a hacer 2 independiente de las opciones de las condiciones iniciales: 1 posición inicial y 1 velocidad inicial.) Podemos repetir este argumento para cualquier otro instante $t_0\in[t_i,t_f]$.
II) Por otro lado, consideremos el cálculo de la variación.
La acción funcional $S[p] := \int_{t_i}^{t_f}dt \ L(q(t),\dot{q}(t),t)$ depende de todo (quizás virtual) ruta $p:[t_i,t_f]\to\mathbb{R}$. Aquí el tiempo derivado de $\dot{q}\equiv\frac{dq}{dt}$ no dependen de la función $p:[t_i,t_f]\to \mathbb{R}$. Extremizing la acción funcional
$$0=\delta = \int_{t_i}^{t_f}dt\left[\left.\frac{\partial L(q(t),v(t),t)}{\partial q(t)}\right|_{v(t)=\dot{q}(t)} \delta p(t) +\left.\frac{\partial L(q(t),v(t),t)}{\partial v(t)}\right|_{v(t)=\dot{q}(t)}\delta \dot{q}(t)\right] $$
$$ = \int_{t_i}^{t_f}dt\left[\left.\frac{\partial L(q(t),v(t),t)}{\partial q(t)}\right|_{v(t)=\dot{q}(t)} \delta p(t) +\left.\frac{\partial L(q(t),v(t),t)}{\partial v(t)}\right|_{v(t)=\dot{q}(t)}\frac{d}{dt}\delta p(t)\right] $$
$$ = \int_{t_i}^{t_f}dt\left[\left.\frac{\partial L(q(t),v(t),t)}{\partial q(t)}\right|_{v(t)=\dot{q}(t)} - \frac{d}{dt}\left(\left.\frac{\partial L(q(t),v(t),t)}{\partial v(t)}\right|_{v(t)=\dot{q}(t)} \right)\right]\delta p(t) $$
$$+ \int_{t_i}^{t_f}dt\frac{d}{dt}\left[\left.\frac{\partial L(q(t),v(t),t)}{\partial v(t)}\right|_{v(t)=\dot{q}(t)}\delta p(t)\right]\etiqueta{1} $$
con condiciones de contorno adecuadas conduce a Euler-Lagrange ecuación,
$$
\frac{d}{dt}\left(\left.\frac{\partial L(q(t),v(t),t)}{\partial v(t)}
\right|_{v(t)=\dot{q}(t)} \right)
= \left.\frac{\partial L(q(t),v(t),t)}{\partial q(t)}
\right|_{v(t)=\dot{q}(t)} ~.\la etiqueta{2}
$$
III) tomar Nota de que
$$\frac{d}{dt}~=~\dot{v}(t)\frac{\partial}{\partial v(t)}+\dot{q}(t)\frac{\partial}{\partial q(t)}+\frac{\partial}{\partial t} \etiqueta{3}$$
es un total de tiempo de derivados, no explícito de tiempo derivado de $\frac{\partial}{\partial t}$, por lo que el de Euler-Lagrange de la ecuación (2) es realmente un 2º-orden de la ecuación diferencial ordinaria (ODE),
$$\left(\ddot{q}(t)\frac{\partial}{\partial v(t)}+\dot{q}(t)\frac{\partial}{\partial q(t)}+\frac{\partial}{\partial t}\right) \a la izquierda. \frac{\partial L(q(t),v(t),t)}{\partial v(t)}
\right|_{v(t)=\dot{q}(t)}
= \left.\frac{\partial L(q(t),v(t),t)}{\partial q(t)}
\right|_{v(t)=\dot{q}(t)}~. \etiqueta{4}$$
Para resolver la ruta $p:[t_i,t_f]\to \mathbb{R}$, uno debe especificar dos condiciones iniciales, por ejemplo, $q(t_i)=q_i$ y $\dot{q}(t_i)=v_i$.