La cuestión es que cuando se habla del lagrangiano $\mathcal{L}$ se debe considerar como un función de los campos . Así que es $\mathcal{L}[A_\mu,\partial_\nu A_\mu]$ . Se considera todos los componentes de $A$ Es decir $A_\mu$ para $\mu=0,1,2,3$ y todos los derivados de todos los componentes de $A$ Es decir $\partial_\nu A_\mu$ para $\mu,\nu=0,1,2,3$ para ser variables independientes .
Imagina que estás tratando con una función de varias variables donde las variables son los componentes de $A$ y los derivados.
Así que la derivada
$$\dfrac{\partial}{\partial(\partial_\nu A_\mu)}$$
Es una derivada con respecto a la coordenada particular $\partial_\nu A_\mu$ para este $\mu,\nu$ .
Recuerda que para coordenadas independientes $x^\mu$ la ecuación
$$\dfrac{\partial x^\mu}{\partial x^\nu}=\delta^\mu_\nu$$
se mantiene. Lo mismo ocurre aquí. Dado que $A_\mu$ y $\partial_\alpha A_\beta$ son coordenadas independientes tenemos
$$\dfrac{\partial A_\mu}{\partial(\partial_\alpha A_\beta)}=\dfrac{\partial (\partial_\alpha A_\beta)}{\partial A_\mu}=0,\quad \dfrac{\partial A_\mu}{\partial A_\nu}=\delta_{\mu\nu},\quad \dfrac{\partial (\partial_\alpha A_\beta)}{\partial (\partial _\mu A_\nu)}=\delta_{\alpha\mu}\delta_{\beta\nu}.$$
Convénzase de ello, teniendo en cuenta la ecuación anterior bien conocida en $\mathbb{R}^n$ . Es la misma ecuación, pero con diferentes nombres para las coordenadas.
Para tratar los que tienen índice elevado basta con escribir explícitamente la métrica. Así sabemos que $\partial^\mu A^\nu = g^{\mu\lambda}g^{\nu\sigma}\partial_\lambda A_\sigma$ .
En particular, tenemos
$$\dfrac{\partial( \partial^\mu A^\nu)}{\partial(\partial_\alpha A_\beta)}=\dfrac{\partial( g^{\mu\sigma}g^{\nu\rho} \partial_\sigma A_\rho)}{\partial(\partial_\alpha A_\beta)}=g^{\mu\sigma}g^{\nu\rho}\dfrac{\partial( \partial_\sigma A_\rho)}{\partial(\partial_\alpha A_\beta)}=g^{\mu\sigma}g^{\nu\rho} \delta_{\sigma\alpha}\delta_{\rho\beta}=g^{\mu\alpha}g^{\nu\beta}.$$
Entonces sólo hay que diferenciar $\mathcal{L}$ normalmente en función de estas coordenadas. Tenemos
$$\mathcal{L}=-\dfrac{1}{2}(\partial^\mu A^\nu\partial_\mu A_\nu-\partial^\mu A^\nu \partial_\nu A_\mu)$$
Para no mezclar los índices de la contracción con el índice libre de la derivada que quieres realizar, utiliza uno diferente. Vamos a diferenciar con respecto a $\partial_\alpha A_\beta$
$$\dfrac{\partial \mathcal{L}}{\partial(\partial_\alpha A_\beta)}=-\dfrac{1}{2}\left(\dfrac{\partial (\partial^\mu A^\nu)}{\partial(\partial_\alpha A_\beta)}\partial_\mu A_\nu+\partial^\mu A^\nu \dfrac{\partial(\partial_\mu A_\nu)}{\partial(\partial_\alpha A_\beta)}-\dfrac{\partial(\partial^\mu A^\nu)}{\partial(\partial_\alpha A_\beta)}\partial_\nu A_\mu - \partial^\mu A^\nu \dfrac{\partial(\partial_\nu A_\mu)}{\partial(\partial_\alpha A_\beta)}\right)$$
Ahora, utilizando lo anterior, el resultado es el siguiente.
0 votos
Detalles en mis respuestas aquí : Derivación de la densidad lagrangiana para el campo electromagnético y en ella : Derivación de las ecuaciones de Maxwell a partir del tensor de campo lagrangiano no responden a tu pregunta pero pueden ayudarte a entender la correspondencia de los términos en notación tensorial con los términos en notación de nivel elemental.