Mi intuición sobre el tema:
En un entorno paramétrico estadístico, que está en los límites de la Teoría del Desion, nos gustaría estime, digamos, $\theta \in \Theta$ de la mejor manera posible, eligiendo una función de los datos de la muestra (una estadística) antes de conocer los datos. Dejemos que "lo mejor" se mida por una función de pérdida $l: t \times \theta \to \!R^+$ , donde $t$ es la estimación de $\theta$ . Así que $l(t, \theta)$ es alta para valores pobres de $t$ y cero para $t=\theta$ .
Ahora queremos comparar las estadísticas $T_1$ y $T_2$ . Uno es claramente el ganador si la función de pérdida es menor o igual que el otro para todas las muestras. Si no es así, no podemos decir cuál es mejor. En otras palabras, $T_1$ puede ser mejor que $T_2$ en algún subconjunto del espacio muestral, pero $T_2$ puede ser mejor que $T_1$ en otro subconjunto.
Para eliminar el dependencia en el espacio muestral, podemos tomar el valor medio sobre él. Ese es el función de riesgo .
Ahora, supongamos que $T_1$ es mejor que $T_2$ en promedio. $T_2$ puede ser mejor que $T_1$ ¡en ciertas circunstancias todavía! $T_2$ mat ser mejor que $T_1$ para algunos valores de $\theta \in \Theta_1 \subset \Theta$ pero peor en la media.
Para eliminar aún más el dependencia en $\Theta$ es establecer un priori en $\Theta$ - este es el enfoque bayesiano. En este caso, establecemos la "importancia" sobre $\Theta$ : valores más razonables de $\theta$ son más importantes, ya que es más probable que se encuentren en la realidad.
En pocas palabras, creo que consideramos la función de riesgo de la forma en que está porque elimina la dependencia de la información, en un entorno en el que estamos tomando la decisión antes de reunirla.
Como complemento a la respuesta de @shadowtalker, es importante tener en cuenta que a veces (como sugirió @shadowtalker sobre las distribuciones de cola pesada) la expectativa no es suficiente para resumir una variable aleatoria (aunque sea un buen "descriptor"). En esos casos, podemos necesitar la varianza, la asimetría o la curtosis.
Además, otras medidas centrales de tendencia, como la mediana, son muy útiles en la estadística no paramétrica, por ejemplo. Aunque históricamente la teoría se desarrolló primero para la estadística pararmétrica, donde el valor esperado tiene más atractivo.
4 votos
¿Conoces la función de utilidad en economía? Una función de utilidad representa las preferencias: $x$ es preferible a $y$ si y sólo $u(x) \geq u(y)$ . Si compra el Axiomas de Von Neumann y Morgenstern entonces las preferencias sobre un resultado aleatorio pueden representarse mediante la utilidad esperada: variable aleatoria $X$ es preferible a $Y$ si y sólo si $\operatorname{E}[u(X)] \geq \operatorname{E}[u(Y)]$ . De forma básicamente idéntica, puede interpretar la función de pérdida como una representación de sus preferencias.
2 votos
Estoy de acuerdo con la respuesta de @MatthewGunn. Si encuentras una utilidad (pérdida) que es mejor en términos de valor esperado que cualquier otra utilidad, entonces esa utilidad es la elección más racional. Bueno, para ser más exactos, "la elección más racional de VNM".