1 votos

Ejemplo del mundo real para la teoría de la utilidad

Me he quedado con la teoría de la utilidad. Según entiendo, tenemos

  • vector $\vec{x}$ representar la evidencia sobre el mundo
  • $n$ posibles estados del mundo $S = \{S_{1}, S_{2}, ..., S_{n}\}$
  • $m$ posibles acciones del agente $\alpha = \{\alpha_{1}, \alpha_{2}, ..., \alpha_{m}\}$
  • función de utilidad $U_{ik}$ que devuelve un número que representa el beneficio de la acción $\alpha_{i}$ cuando el estado es $S_{k}$
  • la utilidad esperada de cualquier acción definida como $EU(\alpha_{i}|x) = \sum_{k}U_{ik} \cdot P(S_{k}|x)$

Y, digamos, nuestro agente siempre elegiría la acción que maximiza $EU$ . Eso es más o menos todo sobre los fundamentos de la teoría.


Ahora, quiero entender mejor todas esas abstracciones imaginando un escenario del mundo real y poniendo algunos valores/propiedades significativos en $\vec{x}$ , $S_{i}$ etc, para poder ver cómo escribir un programa para elegir la mejor acción.

He visto ejemplos en la literatura, pero cuando intenté idear uno propio, ¡las preguntas empezaron a surgir!

Así, mi ejemplo: un agente tiene algo de dinero y puede invertir una parte en un activo de riesgo. Así es como pienso enfocar la solución (con mi preguntas en línea ):

  1. Pruebas sobre el mundo $\vec{x}$ - puede ser, por ejemplo, el peor y el mejor caso de rendimiento de los activos, y la diferencia de precios de los activos durante la última semana. (¿Está bien? ¿Algún otro buen candidato?)
  2. Estados del mundo $S_{k}$ - puede ser, por ejemplo, la diferencia de precios de los activos entre hoy y ayer. (¿Está bien? ¿Algún otro buen candidato?)
  3. Acciones $\alpha_{i}$ - puede ser, digamos, "invertir", "no hacer nada" y "dejar que un humano decida" (¿Está bien tener menos acciones que estados? ¿Cómo incorporar aquí la idea de "invertir una parte"?)
  4. Función de utilidad $U_{ik}$ - puede ser sólo una función de la riqueza actual del agente y de los rendimientos de los activos (digamos, $\sqrt{w}$ y su comparación de certeza equivalente a la ganancia esperada) pero creo que debería ser más inteligente. ¿Cuál es la mejor manera de definirlo (¿función propia? ¿matriz?), y quién debe definirlo (¿experto humano? ¿aprendido por un algoritmo?). ¿Cómo enfatizar la penalización de diferir la decisión a un humano, por el hecho de tener una utilidad menor?
  5. Probabilidades $P(S_{k}|x)$ - con el $S_{k}$ y $\vec{x}$ He elegido, creo que las probabilidades podrían y deberían ser aprendidas por el algoritmo, pero no estoy seguro. ¿Cuál es la mejor manera de definirlos? ¿Deben ser aprendidos por un algoritmo o proporcionados por un experto humano?

Espero no estar pidiendo demasiado - ¡gracias!

3voto

Michael Greinecker Puntos 19016

La utilidad esperada parte del trabajo de von Neumann y Morgenstern. En su marco, existe un conjunto de resultados $Z$ (finito, para simplificar) y un agente tiene preferencias por las loterías sobre los resultados. Los resultados pueden ser cantidades de dinero que el agente obtiene y las loterías pueden ser en realidad asignaciones aleatorias de dinero. En este marco, las probabilidades se consideran objetivas. Pueden proceder de una ruleta. Así que $\Delta(Z)$ es el conjunto de distribuciones de probabilidad sobre $Z$ y el agente tiene una relación de preferencia $\succ$ en $\Delta(Z)$ donde interpretamos $p\succ q$ ya que "el agente prefiere que el resultado sea decidido por $p$ en comparación con $q$ ". Bajo ciertas condiciones en $\succ$ interpretado como requisitos de racionalidad, existe una función $u:Z\to\mathbb{R}$ tal que $p\succ q$ si y sólo si $\sum_{z\in Z}p(z)u(z)>\sum_{z\in Z}q(z)u(z)$ es decir, si la expectativa de $u$ es mayor bajo $p$ que bajo $q$ .

Un enfoque diferente y más complejo de la utilidad se basa en la probabilidad subjetiva. Este enfoque fue desarrollado, entre otros, por De Finetti, Ramsey y Savage. En el marco de Savage, se parte de un conjunto de afirma $S$ un conjunto de resultados $Z$ y un tomador de decisiones tiene preferencias sobre actúa que son funciones de los estados a las consecuencias. Los estados pueden ser $S=\{$ lluvia, sol $\}$ los resultados $Z=\{$ estar seco, estar mojado, disfrutar del verano $\}$ . Un acto puede ser llevar un ubrella, para que uno esté seco, sin importar el estado. Otro acto puede ser dejar el paraguas en casa. Entonces uno disfruta del verano cuando el estado es de sol y se moja cuando el estado es de lluvia. Ahora el que decide tiene preferencias sobre los actos. Bajo ciertas condiciones, mucho más complicadas que para el enfoque von Neumann-Morgenstern, existe una función $u:Z\to\mathbb{R}$ y una distribución de probabilidad $p$ en $S$ (en realidad, una probabilidad finitamente aditiva...) tal que para dos actos $a$ y $b$ , uno tiene $a\succ b$ si y sólo si $\int_S u(a(s)) p(s)>\int_S u(b(s)) p(s)$ . También es posible debilitar que para un espacio de estados finito tal que $a\succ b$ si y sólo si $\sum_S u(a(s))p(s)>\sum_Su(b(s))$ pero en ese caso, las distribuciones de probabilidad no están determinadas de forma única.

Se puede escribir mucho más sobre esto y la teoría de la decisión es un área en auge. Pero la cuestión es que las utilidades y, en el caso de la teoría de la utilidad subjetiva, también las probabilidades, se construyen a partir de las preferencias de un decisor en situaciones de riesgo e incertidumbre. Una buena introducción a los fundamentos de la teoría es Notas sobre la teoría de la elección de David Kreps. Un libro más avanzado, con muchas discusiones filosóficas y reflexiones, es Teoría de la decisión bajo incertidumbre por Itzhak Gilboa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X