6 votos

¿Por qué se define la función de riesgo como la expectativa de la función de pérdida?

En la teoría de la decisión, definimos el riesgo asociado a una determinada función de predicción como el valor esperado de la función de pérdida. Dado que la entrada y la salida se consideran variables aleatorias, la función de pérdida es también una variable aleatoria.

Me pregunto por qué suponemos que el valor esperado de la pérdida se considera una buena descripción de la variable aleatoria. A mi entender, el valor esperado de una variable aleatoria no es necesariamente una buena descripción de la misma.

Entonces, ¿por qué se define la función de riesgo como el valor esperado de la función de pérdida?

4 votos

¿Conoces la función de utilidad en economía? Una función de utilidad representa las preferencias: $x$ es preferible a $y$ si y sólo $u(x) \geq u(y)$ . Si compra el Axiomas de Von Neumann y Morgenstern entonces las preferencias sobre un resultado aleatorio pueden representarse mediante la utilidad esperada: variable aleatoria $X$ es preferible a $Y$ si y sólo si $\operatorname{E}[u(X)] \geq \operatorname{E}[u(Y)]$ . De forma básicamente idéntica, puede interpretar la función de pérdida como una representación de sus preferencias.

2 votos

Estoy de acuerdo con la respuesta de @MatthewGunn. Si encuentras una utilidad (pérdida) que es mejor en términos de valor esperado que cualquier otra utilidad, entonces esa utilidad es la elección más racional. Bueno, para ser más exactos, "la elección más racional de VNM".

6voto

trish Puntos 31

A mi entender, el valor esperado de una variable aleatoria no es necesariamente una buena descripción de la misma.

Esto depende de lo que se entienda por "descripción". La expectativa tiene varias interpretaciones, todas las cuales pueden ser o no "buenas" para usted.

En términos frecuentistas, es la media a largo plazo de un proceso de generación de datos . Si se extrae de una variable aleatoria $X$ un número infinito de veces, la media de las observaciones convergerá en $E(X)$ .

Matemáticamente, es un media ponderada de los posibles resultados (incluso en el caso continuo si lo miras con detenimiento). Cuanto más probable sea un resultado, mayor será su peso.

La expectativa es también la centro de masa de la distribución de probabilidad . Esta descripción es atractiva en dimensiones superiores (donde se puede pensar que los datos ocupan una "mancha" en el espacio), y es análoga al centro de masa en física.

Por último, la expectativa es un parámetro de localización . Esto significa que un cambio en la expectativa de la distribución representa un cambio en la densidad de la distribución. Si se cambia el valor esperado, es como si se recogiera la densidad de la distribución del gráfico y se dejara caer en otro lugar, sin modificar su forma.

La crítica de que "no es necesariamente una buena descripción" está probablemente relacionada con el hecho de que, en las distribuciones muy sesgadas o con colas pesadas, muy pocas observaciones están realmente cerca del punto de valor esperado. Esto es válido, pero probablemente no es algo que nos pueda preocupar. Como menciono a continuación, no tenemos realmente una alternativa.

Me pregunto por qué suponemos que el valor esperado de la pérdida se considera una buena descripción de la variable aleatoria.

  1. Es un parámetro de localización. Una pérdida menor es buena. Si la ubicación de la distribución de pérdidas es menor, entonces la pérdida en promedio es menor. Esto es lo que queremos.
  2. Es relativamente fácil de calcular. El hecho de que sea lineal es especialmente útil.
  3. Los parámetros de localización alternativos (mediana, moda, ...) no son tan fáciles de calcular, y podría decirse que son menos representativa que la media.
  4. De todos modos, lo usamos en todas partes.
  5. En economía y teoría de la decisión, algunas de las funciones de utilidad más fáciles de trabajar implican que los agentes minimizan la pérdida esperada (o, equivalentemente, maximizan la ganancia esperada).

A eso se reduce todo: podemos calcularlo, funciona en su mayor parte, y no hay una alternativa clara.

1 votos

Gracias por la respuesta, pero algunos de los puntos parecen circulares. Por ejemplo, "a largo plazo media de un proceso de generación de datos. De todos modos, ¿por qué debería importarme la media?

0 votos

Estoy pensando en distribuciones generales sin ninguna suposición.

0 votos

@curious131 porque las medias tienen un significado intuitivo como "el medio" (la mediana es otro tipo de "medio"), porque todo el mundo sabe lo que es una media y porque nadie tiene una alternativa genérica.

3voto

Mi intuición sobre el tema:

En un entorno paramétrico estadístico, que está en los límites de la Teoría del Desion, nos gustaría estime, digamos, $\theta \in \Theta$ de la mejor manera posible, eligiendo una función de los datos de la muestra (una estadística) antes de conocer los datos. Dejemos que "lo mejor" se mida por una función de pérdida $l: t \times \theta \to \!R^+$ , donde $t$ es la estimación de $\theta$ . Así que $l(t, \theta)$ es alta para valores pobres de $t$ y cero para $t=\theta$ .

Ahora queremos comparar las estadísticas $T_1$ y $T_2$ . Uno es claramente el ganador si la función de pérdida es menor o igual que el otro para todas las muestras. Si no es así, no podemos decir cuál es mejor. En otras palabras, $T_1$ puede ser mejor que $T_2$ en algún subconjunto del espacio muestral, pero $T_2$ puede ser mejor que $T_1$ en otro subconjunto.

Para eliminar el dependencia en el espacio muestral, podemos tomar el valor medio sobre él. Ese es el función de riesgo .

Ahora, supongamos que $T_1$ es mejor que $T_2$ en promedio. $T_2$ puede ser mejor que $T_1$ ¡en ciertas circunstancias todavía! $T_2$ mat ser mejor que $T_1$ para algunos valores de $\theta \in \Theta_1 \subset \Theta$ pero peor en la media.

Para eliminar aún más el dependencia en $\Theta$ es establecer un priori en $\Theta$ - este es el enfoque bayesiano. En este caso, establecemos la "importancia" sobre $\Theta$ : valores más razonables de $\theta$ son más importantes, ya que es más probable que se encuentren en la realidad.

En pocas palabras, creo que consideramos la función de riesgo de la forma en que está porque elimina la dependencia de la información, en un entorno en el que estamos tomando la decisión antes de reunirla.


Como complemento a la respuesta de @shadowtalker, es importante tener en cuenta que a veces (como sugirió @shadowtalker sobre las distribuciones de cola pesada) la expectativa no es suficiente para resumir una variable aleatoria (aunque sea un buen "descriptor"). En esos casos, podemos necesitar la varianza, la asimetría o la curtosis.

Además, otras medidas centrales de tendencia, como la mediana, son muy útiles en la estadística no paramétrica, por ejemplo. Aunque históricamente la teoría se desarrolló primero para la estadística pararmétrica, donde el valor esperado tiene más atractivo.

0 votos

Creo que no responde a la pregunta fundamental de ¿por qué tomar el valor medio y no otro funcional?

0 votos

@curious131 si se te ocurre uno mejor, ¡déjanoslo claro!

0 votos

@shadowtalker Perdón por ser pedante pero estoy tratando de encontrar si hay una justificación matemática para usar la expectativa o la usamos sólo porque simplemente funciona.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X