Esta parece una buena oportunidad para aplicar el Kernel de Regresión (parte del vasto campo de test no paramétrico de Regresión).
En realidad describe la idea básica en su último párrafo completo. Usted será la aproximación de $Y=f(x)$ usando kernel-suma ponderada de los puntos acerca de la $x$, en base a su distancia desde el punto.
Hay un número de posibles núcleos, pero ya que usted desee $Y$ a de ser liso, debemos elegir un kernel que utiliza todos los datos de puntos de cálculo (por lo que no hay discontinuidades). Un familiar kernel es el Núcleo Gaussiano $K_{\sigma}$ con "ancho de banda" $\sigma$:
$$K_g(x;\sigma):=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{x^2}{\sigma^2}}$$
Si utilizamos el Nadaraya-Watson Kernel, podemos ver que nuestra función tendrá el siguiente formulario para un conjunto de muestras de pares de $(y_i,x_i) \in S$:
$$E[Y|X=x_0]\approx f(x_0;S,\sigma)=\frac{\sum\limits_{(x_i,y_i)\in S} K_{\sigma}(x_i-x_0)y_i}{\sum\limits_{(x_i,y_i)\in S} K_{\sigma}(x_i-x_0)}$$
Podemos aproximar $E\left[\left.\frac{\partial Y}{\partial X}\right|_{X=X_0}\right]$ tomando la derivada de la $f(x_0;S,\sigma)$ wrt. $x_0$:
$$E\left[\left.\frac{\partial Y}{\partial X}\right|_{X=X_0}\right] \approx \frac{\partial}{\partial x_0}\frac{\sum\limits_{(x_i,y_i)\in S} K_{\sigma}(x_i-x_0)y_i}{\sum\limits_{(x_i,y_i)\in S} K_{\sigma}(x_i-x_0)}$$
No necesariamente una bonita fórmula, pero va a ser (un) diferenciable y (b) tomar en cuenta todos los datos, no solo los datos cerca de su punto de interés.
No tengo tiempo ahora mismo a trabajar toda la derivada, pero se puede aplicar el cociente regla de ti mismo para ver lo que se verá así.
Respuesta a OP Comentario
El OP ha dicho que quiere un modelo de "libre" estimación de la derivada en un punto dado. Por desgracia, la existencia de la derivada presume de un modelo. El test no paramétrico de enfoque anterior hace muy débil suposiciones acerca de la naturaleza de esta función, basada esencialmente en los datos observados y básicos de suavizado de transformaciones (para asegurarse de que la derivada tiene sentido).
También, para aclarar: el enlace al post sobre la derivada de una variable aleatoria respecto de una variable determinista se supone que el subyacente punto en el espacio muestral se mantiene fijo y que no existe un término de interacción entre el determinismo y el azar de las piezas de $Y$: (es decir, estamos pensando en $Y$ como lineal de la función de $(\omega,x)$, lo $\frac{\partial Y}{\partial x}$ termina siendo un funcionamiento normal. Si este no es el caso, entonces usted ha entrado al reino de ecuaciones diferenciales estocásticas, y no es simple en absoluto. Ahora, si usted tiene un montón de datos, usted no puede asumir que $\omega$ es el mismo para cada punto, por lo que necesitamos desarrollar métodos para manejar esto. Mi enfoque de arriba es el modelo de libre en este sentido, pero voy a ampliar sobre esto más adelante.
Por simplicidad de notación, vamos a definir el condicional de la variable aleatoria $Y_z:=(Y|X=z)$. Entonces podemos modelo de la derivada de la siguiente manera:
$$\frac{d}{dz}Y_z = \lim_{z'\to z^+} \frac{Y_{z'}-Y_{z}}{z'-z} := Y'_z$$
Permite definir el "secante" variable aleatoria como:
$$\delta Y_{z,z'} := \frac{Y_{z'}-Y_{z}}{z'-z}$$
El valor esperado de $\delta Y_{z,z'}$ sigue de la linealidad de la expectativa:
$$E[\delta Y_{z,z'}] = \frac{E[Y|X=z'] - E[Y|X=z]}{z'-z} $$
Puesto que usted está asumiendo que $Y$ es continuamente diferenciable función de $X$, sabemos que $E[Y_z]$ es un buen, univariante función de $z$, a la que podemos aplicar el simple Cálculo I conceptos:
$$ \lim_{z'\to z^+} E[\delta Y_{z,z'}] = E\left[\lim_{z'\to z^+} \delta Y_{z,z'}\right] = E[Y'_z]$$
Pero, también tenemos:
$$ \lim_{z'\to z^+} E[\delta Y_{z,z'}] = \lim_{z'\to z^+} \frac{E[Y|X=z'] - E[Y|X=z]}{z'-z}= \frac{d}{dz}E[Y_z]$$
Por lo tanto, $E[Y'_z]=\frac{d}{dz}E[Y_z]$. El último fuimos capaces de conseguir nonparametrically el uso de estimadores kernel.
Respuesta Nº 2 - Debate de la convergencia
Voy a empezar por caminar a través de la primera convergencia resultado:
$$ \lim_{z'\to z^+} E[\delta Y_{z,z'}] = E\left[\lim_{z'\to z^+} \delta Y_{z,z'}\right] = E[Y'_z]$$
Dado que todos los subíndices involucrados, puede ayudar a reestructurar el uso de una notación que aclara las variables:
$E[Y|X=z]\equiv E[Y_z]$ es una función de $z$ solamente, así que vamos a llamarlo $g(z)$. Entonces, podemos ver que:
$$\lim_{z'\to z^+} E[\delta Y_{z,z'}] = \lim_{z'\to z^+} \frac{g(z')-g(z)}{z'-z} \equiv \frac{dg}{dz}:=g'(z)\equiv \frac{d}{dz}E[Y_z](z)$$
Así, este paso es la aplicación básica de cálculo (suponiendo que la derivada existe, que su pregunta presupone).
Desde la atención sobre un determinado $z=x_0$, el límite será sólo un número, digamos, $c=g'(x_0)$.
A continuación, tenemos el problema de intercambiar el límite de la integral. Deje $f_{Y|X=z}(y):=h_z(y)$ ser la densidad de $Y|X=z$. Tenemos que mostrar:
$$\lim_{z' \to z^+} \int \frac{y[h_{z'}(y)-h_{z}(y)]}{z'-z}dy= \int \lim_{z' \to z^+} \frac{y[h_{z'}(y)-h_{z}(y)]}{z'-z}dy$$
De hecho, aquí es donde las cosas son más técnicamente complicado. En general, no se puede de intercambio de límite y de integración. Pero, que podemos, si nos satisfacen el Teorema de Convergencia Dominada:
Permite definir una secuencia $z_n:z_n\geq z, \lim_{n\to \infty} z_n = z$, y vamos a:
$$f_n(y):=\frac{y[h_{z_n}(y)-h_{z}(y)]}{z_n-z}$$
Entonces tenemos que mostrar:
$$\exists g(y): |f_n(y)|\leq g(y)\;\forall n,y\; \textrm{and}\; \int |g|dy <\infty$$
Si asumimos que el $\delta Y_{z,z'} \xrightarrow{d} Y'_z$ y ambos poseen suave distribuciones de probabilidad (sin discontinuidades), a continuación, $h_{z_n} \to h_z$ pointwise. Ahora, necesitamos construir una función de delimitación $g$.
En este punto necesitamos supuestos adicionales sobre la distribución de $Y|X$. Por ejemplo, si $Y$ es limitada, a continuación, las cuestiones de integrabilidad desaparece.Para unbounded $Y$, necesitamos algunos datos sobre cómo $h_{z'}$ converge a $h_z$. Es sólo pointwise o uniforme? (esto último es necesario para permitir el intercambio de los límites y de la integral).
Así que, supongo que era un poco más que la simple calc yo aquí...y el resultado no puede ser satisfactoria desde un sentido teórico.
Heres un consejo práctico:
Construir una serie de relaciones de $Y(X)$ que cubren todo el rango de tipos de relación que usted espera (por ejemplo, exponencial, lineal, log, sinusoidal, sigmoide). Programa una secuencia de comandos para generar muestras aleatorias de $(Y,X)$ (con algunos de distribución o de celosía en la X), y tener que estimar el valor esperado de la derivada usando el kernel método y comparar los teóricos esperados derivados (usted tendrá que decidir sobre una distribución de su estocástico/parte aleatoria en $Y(X)$.)
Usted será capaz de hacer esta comparación a través de toda una gama de $X$ y muchas repeticiones. Esto le dará la forma fiable, a ver si funciona el método para el tipo de problemas que usted espera. Desafortunadamente, hay muy pocos métodos que funcionan de manera óptima en todos los casos, pero el núcleo del método debe conseguir cerrar razonablemente se comportó de funciones.