21 votos

¿Cuál es la justificación teórica de los procedimientos bayesianos de intervalo creíble?

(Para ver por qué escribí esto, revisa los comentarios debajo de mi respuesta a esta pregunta .)

Errores de tipo III y teoría de la decisión estadística

Dar la respuesta correcta a la pregunta equivocada se denomina a veces error de tipo III. La teoría de la decisión estadística es una formalización de la toma de decisiones en condiciones de incertidumbre; proporciona un marco conceptual que puede ayudar a evitar los errores de tipo III. El elemento clave del marco se denomina función de pérdida . Toma dos argumentos: el primero es (el subconjunto relevante de) el verdadero estado del mundo (por ejemplo, en problemas de estimación de parámetros, el verdadero valor del parámetro $\theta$ ); el segundo es un elemento del conjunto de acciones posibles (por ejemplo, en problemas de estimación de parámetros, la estimación $\hat{\theta})$ . La salida modela la pérdida asociada a cada acción posible con respecto a cada estado verdadero posible del mundo. Por ejemplo, en los problemas de estimación de parámetros, algunas funciones de pérdida bien conocidas son:

  • la pérdida de error absoluta $L(\theta, \hat{\theta}) = |\theta - \hat{\theta}|$
  • la pérdida de error al cuadrado $L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2$
  • Hal Varian La pérdida de LINEX $L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0$

Examinar la respuesta para encontrar la pregunta

Se podría intentar argumentar que los errores de tipo III pueden evitarse centrándose en la formulación de una función de pérdida correcta y procediendo a través del resto del enfoque teórico de la decisión (no detallado aquí). Ese no es mi resumen - después de todo, los estadísticos están bien equipados con muchas técnicas y métodos que funcionan bien aunque no se deriven de dicho enfoque. Pero el resultado final, me parece, es que la gran mayoría de los estadísticos no conocen ni se preocupan por la teoría de la decisión estadística, y creo que se lo están perdiendo. A esos estadísticos, les diría que la razón por la que podrían encontrar la teoría de la decisión estadística valiosa en términos de evitar el error de tipo III es porque proporciona un marco en el que preguntar a cualquier procedimiento de análisis de datos propuesto: ¿qué función de pérdida (si la hay) afronta el procedimiento de forma óptima? Es decir, ¿en qué situación de toma de decisiones, exactamente, proporciona la mejor respuesta?

Pérdida esperada posterior

Desde una perspectiva bayesiana, la función de pérdida es todo lo que necesitamos. Podemos saltarnos el resto de la teoría de la decisión: casi por definición, lo mejor es minimizar la pérdida esperada posterior, es decir, encontrar la acción $a$ que minimiza $\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta$ .

(¿Y en cuanto a las perspectivas no bayesianas? Bueno, es un teorema de la teoría frecuencial de la decisión, concretamente, el teorema de Wald Teorema de la clase completa -- que el acción óptima siempre será para minimizar la pérdida esperada posterior bayesiana con respecto a algunos (posiblemente impropio) anterior. La dificultad de este resultado es que se trata de un teorema de existencia que no da ninguna orientación sobre qué previo utilizar. Pero restringe fructíferamente la clase de procedimientos que podemos "invertir" para averiguar exactamente qué pregunta es la que estamos respondiendo. En particular, el primer paso para invertir cualquier procedimiento no bayesiano es averiguar qué procedimiento bayesiano (si es que hay alguno) replica o aproxima).

Oye Cyan, sabes que este es un sitio de preguntas y respuestas, ¿verdad?

Lo que me lleva, finalmente, a una cuestión estadística. En la estadística bayesiana, cuando se proporcionan estimaciones de intervalo para parámetros univariantes, dos procedimientos comunes de intervalo creíble son el intervalo creíble basado en cuantiles y el intervalo creíble de mayor densidad posterior. ¿Cuáles son las funciones de pérdida detrás de estos procedimientos?

0 votos

Muy bonito. Pero, ¿son los sólo ¿funciones de pérdida que justifican estos procedimientos?

1 votos

@Cyan>> Gracias por preguntar y responder a la pregunta por mí :) Voy a leer todo esto y upvote siempre que sea posible.

0 votos

@guest>> Asumiendo la diferenciabilidad de $\tilde{L}(a)$ Lo que estás preguntando, más o menos, es: ¿qué hace $\text{"}a \text{ satisfies some condition} \Rightarrow \frac{d}{da}\tilde{L}(a)=0 \text{"}$ implicar sobre $\tilde{L}(a)$ ? Lamentablemente, esta pregunta está por encima de mi nivel de sueldo.

17voto

Cyan Puntos 1965

En la estimación de intervalos univariantes, el conjunto de acciones posibles es el conjunto de pares ordenados que especifican los puntos finales del intervalo. Sea un elemento de ese conjunto representado por $(a, b),\text{ } a \le b$ .

Intervalos de mayor densidad posterior

Sea la densidad posterior $f(\theta)$ . Los intervalos de mayor densidad posterior corresponden a la función de pérdida que penaliza un intervalo que no contiene el valor verdadero y también penaliza los intervalos en proporción a su longitud:

$L_{HPD}(\theta, (a, b); k) = I(\theta \notin [a, b]) + k(b – a), \text{} 0 < k \le max_{\theta} f(\theta)$ ,

donde $I(\cdot)$ es el función de indicador . Esto da la pérdida posterior esperada

$\tilde{L}_{HPD}((a, b); k) = 1 - \Pr(a \le \theta \le b|D) + k(b – a)$ .

Configurar $\frac{\partial}{\partial a}\tilde{L}_{HPD} = \frac{\partial}{\partial b}\tilde{L}_{HPD} = 0$ se obtiene la condición necesaria para un óptimo local en el interior del espacio de parámetros: $f(a) = f(b) = k$ - exactamente la regla para los intervalos HPD, como se esperaba.

La forma de $\tilde{L}_{HPD}((a, b); k)$ nos da una idea de por qué los intervalos HPD no son invariables a una transformación monótona creciente $g(\theta)$ del parámetro. La página web $\theta$ -El intervalo HPD del espacio se transforma en $g(\theta)$ espacio es diferente del $g(\theta)$ -porque los dos intervalos corresponden a funciones de pérdida diferentes: el $g(\theta)$ -El intervalo HPD del espacio corresponde a una penalización de longitud transformada $k(g(b) – g(a))$ .

Intervalos de credibilidad basados en cuantiles

Consideremos la estimación puntual con la función de pérdida

$L_q(\theta, \hat{\theta};p) = p(\hat{\theta} - \theta)I(\theta < \hat{\theta}) + (1-p)(\theta - \hat{\theta})I(\theta \ge \hat{\theta}), \text{ } 0 \le p \le 1$ .

La pérdida esperada posterior es

$\tilde{L}_q(\hat{\theta};p)=p(\hat{\theta}-\text{E}(\theta|\theta < \hat{\theta}, D)) + (1 - p)(\text{E}(\theta | \theta \ge \hat{\theta}, D)-\hat{\theta})$ .

Configurar $\frac{d}{d\hat{\theta}}\tilde{L}_q=0$ se obtiene la ecuación implícita

$\Pr(\theta < \hat{\theta}|D) = p$ ,

es decir, el óptimo $\hat{\theta}$ es el $(100p)$ % del cuantil de la distribución posterior, como se esperaba.

Por lo tanto, para obtener estimaciones de intervalo basadas en los cuantiles, la función de pérdida es

$L_{qCI}(\theta, (a,b); p_L, p_U) = L_q(\theta, a;p_L) + L_q(\theta, b;p_U)$ .

1 votos

Otra forma de motivar esto es reescribir la función de pérdida como una suma (ponderada) de la anchura del intervalo más la distancia, si la hay, por la que el intervalo no cubre el verdadero $\theta$ .

0 votos

¿Hay alguna otra forma de pensar en los intervalos basados en cuantiles que no haga referencia directa a los cuantiles o a la longitud del intervalo? Esperaba algo así como "el intervalo cuantílico maximiza/minimiza la media/mínima/máxima/etc. de alguna medida"

0 votos

@RasmusBååth, básicamente estás preguntando, "¿cuáles son las condiciones necesarias en la función de pérdida para que los intervalos cuantílicos sean la solución a la minimización de la pérdida esperada posterior?" Mi intuición, sólo por la forma en que las matemáticas funcionan en la dirección hacia adelante, es que esto es más o menos. Sin embargo, no lo he probado.

1voto

Intervalos de tamaño mínimo

Una elección obvia de una función de pérdida para la selección de intervalos (tanto bayesiana como frecuentista) es utilizar el tamaño de los intervalos medido en términos de las distribuciones marginales. Así, se empieza con la propiedad deseada o la función de pérdida, y se derivan los intervalos que son óptimos. Esto tiende a no hacerse, como se ejemplifica en la presente pregunta, aunque es posible. Para los conjuntos creíbles bayesianos, esto corresponde a minimizar la probabilidad a priori del intervalo, o a maximizar la creencia relativa, por ejemplo, como se indica en Evans (2016). El tamaño también puede utilizarse para seleccionar conjuntos de confianza frecuentista (Schafer 2009). Los dos enfoques están relacionados y pueden implementarse con bastante facilidad a través de reglas de decisión que incluyen preferentemente decisiones con gran información mutua puntual (Bartels 2017).

Bartels, C.,2017. Utilización del conocimiento previo en las pruebas frecuentistas. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Midiendo la evidencia estadística usando la creencia relativa. Computational and structural biotechnology journal, 14, pp.91-96.

Schafer, C.M. y Stark, P.B., 2009. Construcción de regiones de confianza de tamaño esperado óptimo. Journal of the American Statistical Association, 104(487), pp.1080-1089.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X