Me he quedado con la teoría de la utilidad. Según entiendo, tenemos
- vector $\vec{x}$ representar la evidencia sobre el mundo
- $n$ posibles estados del mundo $S = \{S_{1}, S_{2}, ..., S_{n}\}$
- $m$ posibles acciones del agente $\alpha = \{\alpha_{1}, \alpha_{2}, ..., \alpha_{m}\}$
- función de utilidad $U_{ik}$ que devuelve un número que representa el beneficio de la acción $\alpha_{i}$ cuando el estado es $S_{k}$
- la utilidad esperada de cualquier acción definida como $EU(\alpha_{i}|x) = \sum_{k}U_{ik} \cdot P(S_{k}|x)$
Y, digamos, nuestro agente siempre elegiría la acción que maximiza $EU$ . Eso es más o menos todo sobre los fundamentos de la teoría.
Ahora, quiero entender mejor todas esas abstracciones imaginando un escenario del mundo real y poniendo algunos valores/propiedades significativos en $\vec{x}$ , $S_{i}$ etc, para poder ver cómo escribir un programa para elegir la mejor acción.
He visto ejemplos en la literatura, pero cuando intenté idear uno propio, ¡las preguntas empezaron a surgir!
Así, mi ejemplo: un agente tiene algo de dinero y puede invertir una parte en un activo de riesgo. Así es como pienso enfocar la solución (con mi preguntas en línea ):
- Pruebas sobre el mundo $\vec{x}$ - puede ser, por ejemplo, el peor y el mejor caso de rendimiento de los activos, y la diferencia de precios de los activos durante la última semana. (¿Está bien? ¿Algún otro buen candidato?)
- Estados del mundo $S_{k}$ - puede ser, por ejemplo, la diferencia de precios de los activos entre hoy y ayer. (¿Está bien? ¿Algún otro buen candidato?)
- Acciones $\alpha_{i}$ - puede ser, digamos, "invertir", "no hacer nada" y "dejar que un humano decida" (¿Está bien tener menos acciones que estados? ¿Cómo incorporar aquí la idea de "invertir una parte"?)
- Función de utilidad $U_{ik}$ - puede ser sólo una función de la riqueza actual del agente y de los rendimientos de los activos (digamos, $\sqrt{w}$ y su comparación de certeza equivalente a la ganancia esperada) pero creo que debería ser más inteligente. ¿Cuál es la mejor manera de definirlo (¿función propia? ¿matriz?), y quién debe definirlo (¿experto humano? ¿aprendido por un algoritmo?). ¿Cómo enfatizar la penalización de diferir la decisión a un humano, por el hecho de tener una utilidad menor?
- Probabilidades $P(S_{k}|x)$ - con el $S_{k}$ y $\vec{x}$ He elegido, creo que las probabilidades podrían y deberían ser aprendidas por el algoritmo, pero no estoy seguro. ¿Cuál es la mejor manera de definirlos? ¿Deben ser aprendidos por un algoritmo o proporcionados por un experto humano?
Espero no estar pidiendo demasiado - ¡gracias!