[He aquí un extracto de mi propio libro de texto, La elección bayesiana (2007) que aboga por un enfoque teórico de la decisión en el análisis bayesiano y, por tanto, por la utilización del riesgo de Bayes].
Salvo en los casos más triviales, suele ser imposible minimizar uniformemente (en $d$ ) la pérdida función $\text{L}(\theta,d)$ cuando $\theta$ es desconocido. Para obtener un criterio de comparación eficaz a partir de la función de pérdida, la frecuentista propone considerar en su lugar la pérdida media (o riesgo frecuentista ) \begin{eqnarray*} R(\theta,\delta) & = & \mathbb{E}_\theta \lbrack \text{L} (\theta ,\delta(x))\rbrack \\ & = & \int_{\cal X} \text{L}(\theta,\delta(x))f(x|\theta) \,dx , \end{eqnarray*} donde $\delta(x)$ es la regla de decisión, es decir, la asignación de una decisión a cada resultado $x\sim f(x|\theta)$ del azar experimento.
La función $\delta$ de ${\mathcal X}$ en $\mathfrak{D}$ suele denominarse estimador (mientras que el valor $\delta(x)$ se llama estimación de $\theta$ ). Cuando no hay riesgo de confusión, también denotamos el conjunto de estimadores por $\mathfrak{D}$ .
En paradigma frecuentista se basa en este criterio para comparar estimadores y, si es posible, seleccionar el mejor estimador, El razonamiento es que los estimadores se evalúan en función de su a largo plazo para todos los valores posibles del parámetro $\theta$ . Sin embargo, hay que tener en cuenta que este enfoque plantea varias dificultades.
- El error (pérdida) se promedia sobre los diferentes valores de $x$ proporcionalmente a la densidad $f(x|\theta)$ . Por lo tanto, parece que la observación $x$ ya no se tiene en cuenta. El criterio de riesgo criterio de riesgo evalúa los procedimientos en función de sus resultados a largo plazo y no directamente para la observación dada, $x$ . Dicha evaluación puede ser satisfactoria para el estadístico, pero no es tan atractiva para un cliente, que quiere resultados óptimos para sus datos. $x$ no es que ¡de otro!
- El análisis frecuentista del problema de decisión asume implícitamente que este problema se planteará una y otra vez, para la frecuencia tenga sentido. En efecto, $R(\theta,\delta)$ es aproximadamente la pérdida media en repeticiones i.i.d. del mismo experimento, según la Ley de los Grandes Números. Sin embargo, en ambos filosóficos como prácticos, existe una gran controversia sobre la noción misma de repetibilidad de los experimentos (véase Jeffreys (1961)). Por un lado, si llegan nuevas observaciones al estadístico, debe hacer uso de ellas, y esto podría modificar la modificar la forma en que se lleva a cabo el experimento, como en los médicos.
- Para un procedimiento $\delta$ el riesgo $R(\theta, \delta)$ es una función del parámetro $\theta$ . Por lo tanto, el enfoque frecuentista no induce una ordenación total del conjunto de procedimientos. Es generalmente imposible comparar procedimientos de decisión con este criterio, ya que dos funciones de riesgo cruzadas impiden la comparación entre los estimadores correspondientes. En el mejor de los casos, cabe esperar un procedimiento $\delta_0$ que minimice uniformemente $R(\theta,\delta)$ , pero estos casos rara vez se dan a menos que el espacio de procedimientos de decisión esté restringido. Los mejores procedimientos sólo pueden obtenerse restringiendo bastante artificialmente el conjunto de procedimientos autorizados.
Ejemplo 2.4. Considere $x_1$ y $x_2$ dos observaciones de $$ P_{\theta}(x = \theta-1) = P_{\theta}(x = \theta+1) = 0.5, \qquad \theta\in\mathbb{R}. $$ El parámetro de interés es $\theta$ (es decir, $\mathfrak{D} = \Theta$ ) se estima mediante los estimadores $\delta$ en virtud de la pérdida $$ \text{L}(\theta,\delta) = 1-\mathbb{I}_{\theta}(\delta), $$ a menudo llamado $0-1$ pérdida que penaliza los errores de estimación, cualquiera que sea su magnitud, por $1$ . Teniendo en cuenta la \est particular $$ \delta_0(x_1,x_2) = {x_1+x_2 \over 2}, $$ su función de riesgo es \begin{eqnarray*} R(\theta,\delta_0) & = & 1-P_{\theta}(\delta_0(x_1,x_2) = \theta) \\ & = & 1-P_{\theta}(x_1 \ne x_2) = 0.5. \end{eqnarray*} Este cálculo muestra que el estimador $\delta_0$ es correcto la mitad de las veces. En realidad, este estimador siempre es correcto cuando $x_1\ne x_2$ y siempre equivocado en caso contrario. Ahora, el \est\ $\delta_1(x_1,x_2) = x_1+1$ también tiene una función de riesgo igual a $0.5$ , al igual que $\delta_2(x_1,x_2) = x_2-1$ . Por lo tanto, $\delta_0$ , $\delta_1$ y $\delta_2$ no pueden clasificarse en el $0-1$ pérdida. $\blacktriangleright$
Por el contrario, el enfoque bayesiano de la Teoría de la Decisión integra en el espacio $\Theta$ desde $\theta$ es desconocido, en lugar de integrar en el espacio ${\cal X}$ como $x$ es conocido. Se basa en la página pérdida esperada posterior \begin{eqnarray*} \rho(\pi,d|x) & = & \mathbb{E}^\pi[L(\theta,d)|x] \\ & = & \int_{\Theta} \text{L}(\theta,d) \pi(\theta|x)\, d\theta, \end{eqnarray*} que promedia el error (es decir, la pérdida) según la distribución posterior del parámetro $\theta$ a condición de que se observe observado} $x$ . Dado $x$ el error medio resultante de la decisión $d$ es en realidad $\rho(\pi,d|x)$ . La pérdida esperada posterior es, por tanto, una función de $x$ pero esta dependencia no es problemática, a diferencia de la frecuentista del riesgo con respecto al parámetro porque $x$ contrario a $\theta$ es conocido.