3 votos

Cálculo del estimador de Bayes con pérdida por error cuadrático ponderado: intercambio de derivadas e integrales

Estoy revisando algunas preguntas de la tarea de autoestudio de estadística teórica elemental con las que anteriormente tuve dificultades. Me gustaría que me aclararan algunos puntos del siguiente argumento para calcular un estimador de Bayes minimizando el riesgo posterior.

Contexto.

Dada una distribución independiente e idéntica $X_1 \dots, X_n \sim N(\theta, 1)$ y un $\pi(\theta)$ encuentre el estimador de Bayes para $\tau = e^{\theta} + 1$ bajo la función de pérdida $$L(\tau, \hat{\tau}) = \frac{(\hat{\tau} - \tau)^2}{\tau}$$ donde $\hat{\tau}$ es algún estimador.

Mi intento.

Los datos observados son $X_1 = x_1 \dots, X_n = x_n$ como $x^n$ y utilizando el hecho de que el estimador de Bayes $\hat{\tau}_B$ minimiza el riesgo posterior $r(\hat{\tau} | x^n)$ podemos ser estadísticos perezosos y hacer

$$\hat{\tau}_B = \min_{\hat{\tau}} r(\hat{\tau} | x^n) = \min_{\hat{\tau}} \mathbb{E}_{p(\theta | x^n)}[L(\tau(\theta), \hat{\tau})] = \min_{\hat{\tau}} \int L(\tau(\theta), \hat{\tau}) p(\theta | x^n) d\theta$$

Cálculo de las derivadas con respecto a $\hat{\tau}$ produce

\begin{align*} \frac{d}{d\hat{\tau}} \int \frac{(\hat{\tau} - \tau)^2}{\tau} p(\theta | x^n) \space d\theta &= \int \frac{\partial}{\partial \hat{\tau}} \frac{(\hat{\tau} - \tau)^2}{\tau} p(\theta | x^n) \space d\theta \tag{*}\\ &= 2 \int \left( \frac{\hat{\tau} - \tau}{\tau} \right) p(\theta | x^n) \space d \theta \\ &= 2 \left( \hat{\tau} \int \frac{1}{\tau} p(\theta | x^n) \space d\theta - \int p(\theta | x^n) \space d\theta \right) \end{align*}

Suponiendo que la distribución posterior $p(\theta | x^n)$ se normaliza adecuadamente, poniendo lo anterior a 0 y resolviendo para $\hat{\tau}$ produce

$$\hat{\tau}_B = \frac{1}{\int [1 / \tau(\theta)] \cdot p(\theta | x^n) \space d \theta}$$

Consultas.

Suponiendo que las manipulaciones rutinarias que he realizado no sean erróneas, mis preguntas sobre $(*)$ arriba son:

1. El uso de una derivada total $\frac{d}{d \hat{\tau}}$ en lugar de una derivada parcial con fines de minimización. Razoné que $\mathbb{E}_{p(\theta | x^n)}[L(\tau(\theta), \hat{\tau})]$ sólo puede variar libremente en $\hat{\tau}$ y, por tanto, ésta era la adecuada (en lugar de una derivada parcial). ¿Es una apreciación válida?

2. Cuando la derivada total pasa a la integración, y el orden de los límites y la integración se intercambian convirtiéndose así en la integral de una derivada parcial $\int \frac{\partial}{\partial \hat{\tau}} \dots$ ¿estoy en lo cierto al entender que una razón informal para la derivada parcial sin recurrir al tecnicismo se debe a que estamos haciendo $\int \frac{\partial}{\partial \hat{\tau}} g(\tau(\theta), \hat{\tau}) \space d\theta$ y que la razón de la derivada parcial frente a la derivada total se debe a la $\tau(\theta)$ argumento en $g$ ?

3. ¿La suposición de que se puede minimizar globalmente el riesgo posterior fijando la derivada total en 0, sin más investigación de las derivadas de orden superior, equivale a suponer que el riesgo posterior es convexo? Si es así, dado que la pérdida $L(\tau(\theta), \hat{\tau})$ se especifica explícitamente, y la probabilidad $p(x^n | \theta)$ también se especifica en la posterior $p(\theta | x^n)$ ¿dependería esto de la forma funcional no especificada de la predicción? $\pi(\theta)$ ?

0voto

microhaus Puntos 151

Solución.

Utilizando los resultados en aquí vinculado por StubbornAtom .

La función de pérdida que ha especificado puede interpretarse como una generalización de la pérdida por error al cuadrado, conocida como pérdida por error cuadrático ponderado . Es decir,

$$L(\tau, \hat{\tau}) = \frac{1}{\tau} \cdot (\hat{\tau} - \tau)^2,$$

donde $w(\theta) = 1 / \tau(\theta)$ es un peso, y $L'(\tau, \hat{\tau}) = (\hat{\tau} - \tau)^2$ es la pérdida por error cuadrático.

En este caso, el estimador de Bayes $\hat{\tau}_B$ minimiza el riesgo posterior $r'(\hat{\tau} | x^n)$ bajo pérdida por error cuadrático $L'(\tau, \hat{\tau})$ . Cuando el peso $1 / \tau({\theta})$ ha sido absorbido por el original posterior $p(\theta | x^n)$ con renormalización para formar un nuevo $p'(\theta | x^n)$ :

$$\hat{\tau}_B = \min_{\hat{\tau}} r'(\hat{\tau} | x^n) = \min_{\hat{\tau}} \int (\hat{\tau} - \tau)^2 \cdot p'(\theta | x^n) \space d\theta.$$

Utilizando el resultado de que el estimador de Bayes bajo pérdida de error cuadrático es la media de la posterior $r'$ y la regla del estadístico perezoso, tenemos que

$$\hat{\tau}_B = \mathbb{E}_{p'(\theta | x^n)}[\tau(\theta) | X^n = x^n].$$

Reescribiendo el lado derecho en términos de nuestra posterior original $p$ la solución es:

\begin{align*}\hat{\tau}_B &= \int \tau(\theta) \left( \frac{[1 / \tau(\theta)] \cdot p(\theta | x^n)}{\int [1 / \tau(\theta')] \cdot p(\theta' | x^n) \space d \theta'} \right) \space d \theta \\ &= \frac{\int p(\theta | x^n) \space d \theta}{\int [(1 / \tau(\theta')] \cdot p(\theta' | x^n) \space d \theta'} \\ &= \frac{1}{\int [(1 / \tau(\theta')] \cdot p(\theta' | x^n) \space d \theta'}. \end{align*}

En la 2ª línea se ha eliminado la constante de normalización y en la 3ª línea se ha supuesto que $p(\theta | x^n)$ se ha normalizado adecuadamente.

El resultado anterior es un caso de la solución más general (en este contexto) que

$$\hat{\tau}_B = \frac{\mathbb{E}_{p(\theta | x^n)}[w(\theta) \tau(\theta) | X^n = x^n]}{\mathbb{E}_{p(\theta | x^n)}[w(\theta) | X^n = x^n]}.$$

Se puede encontrar una declaración de esto en el Corolario 2.5.2. de La elección bayesiana de Robert (2003).


Aunque en cierto sentido has planteado algunas preocupaciones apropiadas sobre la validez de intercambiar el orden de diferenciación e integración, también conocido en los libros de texto de referencia de estadística intermedia como "diferenciar bajo un signo integral", hay cuestiones más amplias en juego cuando "calculas la derivada del riesgo posterior con respecto a un estimador".

Sobre la diferenciación bajo el signo integral.

El tecnicismo de la diferenciación bajo un signo integral equivale a preguntar, "¿bajo qué condiciones es válido intercambiar un límite y una integral?" Esto equivale a apelar a Teorema de convergencia dominada de Lebesgue . Sin conocimientos de herramientas formales en análisis y teoría de la medida, esto es difícil de tratar, así que lo mejor que se puede esperar en esta situación es proporcionar algunas condiciones/corolarios del teorema más fácilmente verificables que en principio deberían permitir evaluar si diferenciar bajo el signo integral es apropiado.

La referencia pertinente que necesita es Apartado 2.4: Diferenciación bajo un signo integral en Inferencia estadística de Casella y Berger (2002) :

1. En el caso de que el rango de integración definida $[a, b]$ es tal que $a$ y $b$ son constantes que no dependen de $\theta$ y $f(x, \theta)$ es diferenciable con respecto a $\theta$ entonces un caso especial de la regla de Leibniz significa que

$$\frac{d}{d \theta} \int^b_a f(x, \theta) \space dx = \int^b_a \frac{\partial}{\partial \theta} f(x, \theta) \space dx.$$

2. En el caso de que el rango de integración $[a(\theta), b(\theta)]$ depende de $\theta$ y todos $f(x, \theta)$ , $a(\theta)$ y $b(\theta)$ son diferenciables con respecto a $\theta$ entonces Regla integral de Leibniz establece que

\begin{align*} \frac{d}{d \theta} \int^{b(\theta)}_{a(\theta)} f(x, \theta) dx = & \space f(b(\theta), \theta) \frac{d}{d \theta} b(\theta) - f(a(\theta), \theta) \frac{d}{d \theta} a(\theta) \\ & \space + \int^{b(\theta)}_{a(\theta)} \frac{\partial}{\partial \theta} f(x, \theta) \space dx. \end{align*}

3. En el caso de que el rango de integración definida no sea finito. Supongamos que $f(x, \theta)$ es diferenciable y existe una función $g(x, \theta)$ tal que

$$\left | \frac{\partial}{\partial \theta} f(x, \theta) \left. \right |_{\theta = \theta'} \right | \leq g(x, \theta)$$

para todos $\theta'$ tal que $\lvert \theta' - \theta \rvert \leq \delta_0$ . Si además

$$\int^{\infty}_{- \infty} g(x, \theta) \space dx < \infty$$

entonces

$$\frac{d}{d \theta} \int^{\infty}_{- \infty} f(x, \theta) \space dx = \int^{\infty}_{- \infty} \frac{\partial}{\partial \theta} f(x, \theta) dx.$$

Es decir, si $f$ es suficientemente "suave", en el sentido de que se puede acotar la variabilidad de su derivada parcial mediante una función $g(x, \theta)$ que tiene una integral finita, entonces el orden de diferenciación e integración puede intercambiarse.

Por qué estos resultados pueden no ser aplicables a su situación de forma directa.

El estimador arbitrario $\hat{\tau} = \hat{\tau}(X_1, \dots, X_n)$ es un función de datos. El riesgo posterior $r(\hat{\tau} | x^n)$ que pueden variar en la elección de la función $\hat{\tau}$ es una funcional . Para calcular derivadas con respecto a funciones, es necesario definir qué significa diferenciación en este contexto y establecer sus propiedades. Dada esta complicación adicional, tampoco está muy claro cómo funcionaría la diferenciación bajo un signo integral en el contexto de las derivadas funcionales. Quizá por eso se sugirió un enfoque alternativo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X