Estoy revisando algunas preguntas de la tarea de autoestudio de estadística teórica elemental con las que anteriormente tuve dificultades. Me gustaría que me aclararan algunos puntos del siguiente argumento para calcular un estimador de Bayes minimizando el riesgo posterior.
Contexto.
Dada una distribución independiente e idéntica $X_1 \dots, X_n \sim N(\theta, 1)$ y un $\pi(\theta)$ encuentre el estimador de Bayes para $\tau = e^{\theta} + 1$ bajo la función de pérdida $$L(\tau, \hat{\tau}) = \frac{(\hat{\tau} - \tau)^2}{\tau}$$ donde $\hat{\tau}$ es algún estimador.
Mi intento.
Los datos observados son $X_1 = x_1 \dots, X_n = x_n$ como $x^n$ y utilizando el hecho de que el estimador de Bayes $\hat{\tau}_B$ minimiza el riesgo posterior $r(\hat{\tau} | x^n)$ podemos ser estadísticos perezosos y hacer
$$\hat{\tau}_B = \min_{\hat{\tau}} r(\hat{\tau} | x^n) = \min_{\hat{\tau}} \mathbb{E}_{p(\theta | x^n)}[L(\tau(\theta), \hat{\tau})] = \min_{\hat{\tau}} \int L(\tau(\theta), \hat{\tau}) p(\theta | x^n) d\theta$$
Cálculo de las derivadas con respecto a $\hat{\tau}$ produce
\begin{align*} \frac{d}{d\hat{\tau}} \int \frac{(\hat{\tau} - \tau)^2}{\tau} p(\theta | x^n) \space d\theta &= \int \frac{\partial}{\partial \hat{\tau}} \frac{(\hat{\tau} - \tau)^2}{\tau} p(\theta | x^n) \space d\theta \tag{*}\\ &= 2 \int \left( \frac{\hat{\tau} - \tau}{\tau} \right) p(\theta | x^n) \space d \theta \\ &= 2 \left( \hat{\tau} \int \frac{1}{\tau} p(\theta | x^n) \space d\theta - \int p(\theta | x^n) \space d\theta \right) \end{align*}
Suponiendo que la distribución posterior $p(\theta | x^n)$ se normaliza adecuadamente, poniendo lo anterior a 0 y resolviendo para $\hat{\tau}$ produce
$$\hat{\tau}_B = \frac{1}{\int [1 / \tau(\theta)] \cdot p(\theta | x^n) \space d \theta}$$
Consultas.
Suponiendo que las manipulaciones rutinarias que he realizado no sean erróneas, mis preguntas sobre $(*)$ arriba son:
1. El uso de una derivada total $\frac{d}{d \hat{\tau}}$ en lugar de una derivada parcial con fines de minimización. Razoné que $\mathbb{E}_{p(\theta | x^n)}[L(\tau(\theta), \hat{\tau})]$ sólo puede variar libremente en $\hat{\tau}$ y, por tanto, ésta era la adecuada (en lugar de una derivada parcial). ¿Es una apreciación válida?
2. Cuando la derivada total pasa a la integración, y el orden de los límites y la integración se intercambian convirtiéndose así en la integral de una derivada parcial $\int \frac{\partial}{\partial \hat{\tau}} \dots$ ¿estoy en lo cierto al entender que una razón informal para la derivada parcial sin recurrir al tecnicismo se debe a que estamos haciendo $\int \frac{\partial}{\partial \hat{\tau}} g(\tau(\theta), \hat{\tau}) \space d\theta$ y que la razón de la derivada parcial frente a la derivada total se debe a la $\tau(\theta)$ argumento en $g$ ?
3. ¿La suposición de que se puede minimizar globalmente el riesgo posterior fijando la derivada total en 0, sin más investigación de las derivadas de orden superior, equivale a suponer que el riesgo posterior es convexo? Si es así, dado que la pérdida $L(\tau(\theta), \hat{\tau})$ se especifica explícitamente, y la probabilidad $p(x^n | \theta)$ también se especifica en la posterior $p(\theta | x^n)$ ¿dependería esto de la forma funcional no especificada de la predicción? $\pi(\theta)$ ?