23 votos

Comprender el riesgo de Bayes

A la hora de evaluar un estimador, los dos criterios probablemente más utilizados son el riesgo máximo y el riesgo de Bayes. Mi pregunta se refiere a este último:

El riesgo bayesiano a priori $\pi$ se define del siguiente modo:

$$B_{\pi} (\hat{\theta}) = \int R(\theta, \hat{\theta} ) \pi ( \theta ) d \theta $$

No entiendo muy bien cuál es el $\pi$ y cómo debo interpretarlo. Si tengo una función de riesgo $R(\theta, \hat{\theta} )$ y trazarlo, intuitivamente tomaría su área como criterio para juzgar lo "fuerte" que es el riesgo sobre todos los valores posibles de $\theta$ . Pero involucrar el prior de alguna manera destruye esta intuición de nuevo, aunque está cerca. ¿Puede alguien ayudarme a interpretar la prior?

27voto

Lev Puntos 2212

[He aquí un extracto de mi propio libro de texto, La elección bayesiana (2007) que aboga por un enfoque teórico de la decisión en el análisis bayesiano y, por tanto, por la utilización del riesgo de Bayes].

Salvo en los casos más triviales, suele ser imposible minimizar uniformemente (en $d$ ) la pérdida función $\text{L}(\theta,d)$ cuando $\theta$ es desconocido. Para obtener un criterio de comparación eficaz a partir de la función de pérdida, la frecuentista propone considerar en su lugar la pérdida media (o riesgo frecuentista ) \begin{eqnarray*} R(\theta,\delta) & = & \mathbb{E}_\theta \lbrack \text{L} (\theta ,\delta(x))\rbrack \\ & = & \int_{\cal X} \text{L}(\theta,\delta(x))f(x|\theta) \,dx , \end{eqnarray*} donde $\delta(x)$ es la regla de decisión, es decir, la asignación de una decisión a cada resultado $x\sim f(x|\theta)$ del azar experimento.

La función $\delta$ de ${\mathcal X}$ en $\mathfrak{D}$ suele denominarse estimador (mientras que el valor $\delta(x)$ se llama estimación de $\theta$ ). Cuando no hay riesgo de confusión, también denotamos el conjunto de estimadores por $\mathfrak{D}$ .

En paradigma frecuentista se basa en este criterio para comparar estimadores y, si es posible, seleccionar el mejor estimador, El razonamiento es que los estimadores se evalúan en función de su a largo plazo para todos los valores posibles del parámetro $\theta$ . Sin embargo, hay que tener en cuenta que este enfoque plantea varias dificultades.

  1. El error (pérdida) se promedia sobre los diferentes valores de $x$ proporcionalmente a la densidad $f(x|\theta)$ . Por lo tanto, parece que la observación $x$ ya no se tiene en cuenta. El criterio de riesgo criterio de riesgo evalúa los procedimientos en función de sus resultados a largo plazo y no directamente para la observación dada, $x$ . Dicha evaluación puede ser satisfactoria para el estadístico, pero no es tan atractiva para un cliente, que quiere resultados óptimos para sus datos. $x$ no es que ¡de otro!
  2. El análisis frecuentista del problema de decisión asume implícitamente que este problema se planteará una y otra vez, para la frecuencia tenga sentido. En efecto, $R(\theta,\delta)$ es aproximadamente la pérdida media en repeticiones i.i.d. del mismo experimento, según la Ley de los Grandes Números. Sin embargo, en ambos filosóficos como prácticos, existe una gran controversia sobre la noción misma de repetibilidad de los experimentos (véase Jeffreys (1961)). Por un lado, si llegan nuevas observaciones al estadístico, debe hacer uso de ellas, y esto podría modificar la modificar la forma en que se lleva a cabo el experimento, como en los médicos.
  3. Para un procedimiento $\delta$ el riesgo $R(\theta, \delta)$ es una función del parámetro $\theta$ . Por lo tanto, el enfoque frecuentista no induce una ordenación total del conjunto de procedimientos. Es generalmente imposible comparar procedimientos de decisión con este criterio, ya que dos funciones de riesgo cruzadas impiden la comparación entre los estimadores correspondientes. En el mejor de los casos, cabe esperar un procedimiento $\delta_0$ que minimice uniformemente $R(\theta,\delta)$ , pero estos casos rara vez se dan a menos que el espacio de procedimientos de decisión esté restringido. Los mejores procedimientos sólo pueden obtenerse restringiendo bastante artificialmente el conjunto de procedimientos autorizados.

Ejemplo 2.4. Considere $x_1$ y $x_2$ dos observaciones de $$ P_{\theta}(x = \theta-1) = P_{\theta}(x = \theta+1) = 0.5, \qquad \theta\in\mathbb{R}. $$ El parámetro de interés es $\theta$ (es decir, $\mathfrak{D} = \Theta$ ) se estima mediante los estimadores $\delta$ en virtud de la pérdida $$ \text{L}(\theta,\delta) = 1-\mathbb{I}_{\theta}(\delta), $$ a menudo llamado $0-1$ pérdida que penaliza los errores de estimación, cualquiera que sea su magnitud, por $1$ . Teniendo en cuenta la \est particular $$ \delta_0(x_1,x_2) = {x_1+x_2 \over 2}, $$ su función de riesgo es \begin{eqnarray*} R(\theta,\delta_0) & = & 1-P_{\theta}(\delta_0(x_1,x_2) = \theta) \\ & = & 1-P_{\theta}(x_1 \ne x_2) = 0.5. \end{eqnarray*} Este cálculo muestra que el estimador $\delta_0$ es correcto la mitad de las veces. En realidad, este estimador siempre es correcto cuando $x_1\ne x_2$ y siempre equivocado en caso contrario. Ahora, el \est\ $\delta_1(x_1,x_2) = x_1+1$ también tiene una función de riesgo igual a $0.5$ , al igual que $\delta_2(x_1,x_2) = x_2-1$ . Por lo tanto, $\delta_0$ , $\delta_1$ y $\delta_2$ no pueden clasificarse en el $0-1$ pérdida. $\blacktriangleright$

Por el contrario, el enfoque bayesiano de la Teoría de la Decisión integra en el espacio $\Theta$ desde $\theta$ es desconocido, en lugar de integrar en el espacio ${\cal X}$ como $x$ es conocido. Se basa en la página pérdida esperada posterior \begin{eqnarray*} \rho(\pi,d|x) & = & \mathbb{E}^\pi[L(\theta,d)|x] \\ & = & \int_{\Theta} \text{L}(\theta,d) \pi(\theta|x)\, d\theta, \end{eqnarray*} que promedia el error (es decir, la pérdida) según la distribución posterior del parámetro $\theta$ a condición de que se observe observado} $x$ . Dado $x$ el error medio resultante de la decisión $d$ es en realidad $\rho(\pi,d|x)$ . La pérdida esperada posterior es, por tanto, una función de $x$ pero esta dependencia no es problemática, a diferencia de la frecuentista del riesgo con respecto al parámetro porque $x$ contrario a $\theta$ es conocido.

6voto

Dipstick Puntos 4869

Citando al clásico Teoría estadística de la decisión por James O. Berger:

[...] Ya hemos dicho que decisio de sus funciones de riesgo $R(\theta, \delta)$ . [...] El problema, como anteriormente, es que las diferentes reglas de decisión admisibles tienen riesgos que son mejores para diferentes $\theta$ 's. Al rescate viene el prior $\pi(\theta)$ que supuestamente refleja qué $\theta$ ' las "probables". Parece muy $R(\theta, \delta)$ por $\pi(\theta)$ y media.

Sí, puede evaluar $R(\theta, \delta)$ para cada $\theta$ pero entonces se asumiría implícitamente que cada valor posible de $\theta$ es igualmente probable. En un escenario bayesiano, se elige una probabilidad a priori $\pi(\theta)$ que refleja las probabilidades de observar diferentes $\theta$ e incluir dicha información.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X