Quiero encontrar una aproximación del gradiente $\nabla V(J)$ de la siguiente función $V(J) = P(X\in T(J))$. Donde $X$ es multidimensional estocástico vector con un continuo y suave de densidad de probabilidad y $T$ es un (convexo) establecer que depende de algunos parámetros $J=(J_1,...,J_n)$. $V(J)$ se considera muchas veces continuamente diferenciable.
He a $N$ muestras independientes $x_n$ extraídas de $X$. Y $V(J)$ se aproxima con la frecuencia relativa $$\hat{V}(J)=\frac{ | \{n \mid x_n\in T(J) \}| }{N}.$$ La aproximación es constante a trozos.
Ahora quiero encontrar un operador $\hat{D}$ que se aproxima a la pendiente.
Por ejemplo: Si J es unidimensional. El gradiente puede ser aproximada por la diferencia primordial $\hat{D}\hat{V}(J) = \frac{\hat{V}(J+h)-\hat{V}(J-h)}{2h}$. El problema con la diferencia primordial es que desde $\hat{V}$ es constante a trozos si $h$ elegido es demasiado pequeño, la diferencia es idéntica $0$ para la mayoría de las $J$.
El número de evaluaciones de $\hat{V}$ debe ser pequeño como es, naturalmente, muy costoso de calcular. La aproximación debe ser coherente en el sentido de que se vuelve más preciso como $N$ aumenta.
Hay una manera estándar para resolver este problema? Hay un límite preciso a la aproximación podría conseguir? Existe una teoría para este tipo de problemas y donde puedo leer mas sobre esto?