(Para ver por qué escribí esto, revisa los comentarios debajo de mi respuesta a esta pregunta .)
Errores de tipo III y teoría de la decisión estadística
Dar la respuesta correcta a la pregunta equivocada se denomina a veces error de tipo III. La teoría de la decisión estadística es una formalización de la toma de decisiones en condiciones de incertidumbre; proporciona un marco conceptual que puede ayudar a evitar los errores de tipo III. El elemento clave del marco se denomina función de pérdida . Toma dos argumentos: el primero es (el subconjunto relevante de) el verdadero estado del mundo (por ejemplo, en problemas de estimación de parámetros, el verdadero valor del parámetro $\theta$ ); el segundo es un elemento del conjunto de acciones posibles (por ejemplo, en problemas de estimación de parámetros, la estimación $\hat{\theta})$ . La salida modela la pérdida asociada a cada acción posible con respecto a cada estado verdadero posible del mundo. Por ejemplo, en los problemas de estimación de parámetros, algunas funciones de pérdida bien conocidas son:
- la pérdida de error absoluta $L(\theta, \hat{\theta}) = |\theta - \hat{\theta}|$
- la pérdida de error al cuadrado $L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2$
- Hal Varian La pérdida de LINEX $L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0$
Examinar la respuesta para encontrar la pregunta
Se podría intentar argumentar que los errores de tipo III pueden evitarse centrándose en la formulación de una función de pérdida correcta y procediendo a través del resto del enfoque teórico de la decisión (no detallado aquí). Ese no es mi resumen - después de todo, los estadísticos están bien equipados con muchas técnicas y métodos que funcionan bien aunque no se deriven de dicho enfoque. Pero el resultado final, me parece, es que la gran mayoría de los estadísticos no conocen ni se preocupan por la teoría de la decisión estadística, y creo que se lo están perdiendo. A esos estadísticos, les diría que la razón por la que podrían encontrar la teoría de la decisión estadística valiosa en términos de evitar el error de tipo III es porque proporciona un marco en el que preguntar a cualquier procedimiento de análisis de datos propuesto: ¿qué función de pérdida (si la hay) afronta el procedimiento de forma óptima? Es decir, ¿en qué situación de toma de decisiones, exactamente, proporciona la mejor respuesta?
Pérdida esperada posterior
Desde una perspectiva bayesiana, la función de pérdida es todo lo que necesitamos. Podemos saltarnos el resto de la teoría de la decisión: casi por definición, lo mejor es minimizar la pérdida esperada posterior, es decir, encontrar la acción $a$ que minimiza $\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta$ .
(¿Y en cuanto a las perspectivas no bayesianas? Bueno, es un teorema de la teoría frecuencial de la decisión, concretamente, el teorema de Wald Teorema de la clase completa -- que el acción óptima siempre será para minimizar la pérdida esperada posterior bayesiana con respecto a algunos (posiblemente impropio) anterior. La dificultad de este resultado es que se trata de un teorema de existencia que no da ninguna orientación sobre qué previo utilizar. Pero restringe fructíferamente la clase de procedimientos que podemos "invertir" para averiguar exactamente qué pregunta es la que estamos respondiendo. En particular, el primer paso para invertir cualquier procedimiento no bayesiano es averiguar qué procedimiento bayesiano (si es que hay alguno) replica o aproxima).
Oye Cyan, sabes que este es un sitio de preguntas y respuestas, ¿verdad?
Lo que me lleva, finalmente, a una cuestión estadística. En la estadística bayesiana, cuando se proporcionan estimaciones de intervalo para parámetros univariantes, dos procedimientos comunes de intervalo creíble son el intervalo creíble basado en cuantiles y el intervalo creíble de mayor densidad posterior. ¿Cuáles son las funciones de pérdida detrás de estos procedimientos?
0 votos
Muy bonito. Pero, ¿son los sólo ¿funciones de pérdida que justifican estos procedimientos?
1 votos
@Cyan>> Gracias por preguntar y responder a la pregunta por mí :) Voy a leer todo esto y upvote siempre que sea posible.
0 votos
@guest>> Asumiendo la diferenciabilidad de $\tilde{L}(a)$ Lo que estás preguntando, más o menos, es: ¿qué hace $\text{"}a \text{ satisfies some condition} \Rightarrow \frac{d}{da}\tilde{L}(a)=0 \text{"}$ implicar sobre $\tilde{L}(a)$ ? Lamentablemente, esta pregunta está por encima de mi nivel de sueldo.
4 votos
Interesante cita de Berger Teoría de la decisión estadística y análisis bayesiano : "No consideramos que los conjuntos creíbles tengan una función teórica de decisión clara y, por lo tanto, desconfiamos de los enfoques de "optimalidad" para la selección de un conjunto creíble"
1 votos
@Simon Byrne>> 1985 fue hace mucho tiempo; me pregunto si todavía piensa eso.
1 votos
@Cyan: No lo sé, pero la teoría de la decisión es la única parte de la estadística bayesiana que no ha cambiado mucho en los últimos 27 años (ha habido algunos resultados interesantes, pero el libro de Berger sigue siendo la referencia estándar), especialmente si se compara con los populares resultados minimax de la estadística frecuentista.
0 votos
¡@Cyan gran Q&A!