Por diversión estaba leyendo unos apuntes sobre Características de Funcionamiento y decía (parafraseado con definición de notación):
Como sugiere la Fig. 1 (omitida en la pregunta), una buena probabilidad de detección $P_D = P(\hat{H}(y) = H_1 \mid H = H_1)$ se obtiene generalmente a costa de una alta probabilidad de falsa alarma $P_F = P(\hat{H}(y) = H_1 \mid H = H_0)$ y, por lo tanto, elegir un umbral (LRT, Likely Ratio Test) $\eta$ para un problema concreto implica hacer un compromiso aceptable... Desde esta perspectiva, la prueba de hipótesis bayesiana (es decir, elegir una regla de decisión que minimice el riesgo de Bayes $\varphi(f) = \mathbb{E}_{H,y}[C(f(y), H)] $ ) representa un compromiso particular, y corresponde a un único punto de esta curva. Para obtener este equilibrio, hemos seleccionado como función objetivo una combinación lineal de $P_D$ y $P_F$ . Más concretamente, minimizamos: $$ \varphi(f) = \alpha P_F - \beta P_D + \gamma$$ sobre todas las reglas de decisión posibles, donde la elección de $\alpha$ y $\beta$ se determina, a su vez, por la asignación de costes $C_{ij}$ (donde i corresponde a la hipótesis elegida por la regla de decisión y j corresponde a la hipótesis correcta) y las probabilidades a priori $P_m$ 's.
y afirma para el caso binario que lo siguiente es cierto:
$$\alpha = (C_{10} - C_{00})P_0,$$ $$\beta=(C_{01} - C_{11})P_1,$$ $$ \gamma = (C_{00} + C_{01})P_1$$
Mi primera pregunta es: ¿por qué minimizamos?
$$ \varphi(f) = \alpha P_F - \beta P_D + \gamma$$
que no tiene mucho sentido para mí. ¿Por qué queremos minimizarlo? ¿Es porque simplemente queremos minimizar el riesgo esperado? (Además, ¿por qué esa ecuación expresa la compensación intrínseca entre $P_D$ y $P_F$ ?)De la notación, deduzco que se puede reescribir el Riesgo de Bayes y escribirlo en esa forma, sin embargo, he sido incapaz de hacerlo. Esto es lo que he intentado:
$$ \varphi(f) = \mathbb{E}_{H,y}[C(f(y), H)] = \sum_{H_j,y} C(f(y), H_j) P(y,H_j)$$
$$ \varphi(f) = \sum_{H_j} \sum_{H_i} \sum_{y : f(y) = H_i} C(f(y) = H_i, H_j) P(y \mid H_j) P(H_j)$$ $$ =\sum_{H_j,H_i} C(H_i, H_j) P(f(y) = H_i \mid H_j) P(H_j)$$ para el caso binario tenemos (fueron $P_i = P(H_i)$ , $C_{ij} = C(f(y) = H_i, H_j)$ , $P(H_i \mid H_j) = P(f(y) = H_i \mid H = H_j)$ ):
$$ \varphi(f) = C_{00} P(H_0 \mid H_0)P_0 + C_{11} P(H_1 \mid H_1)P_1 + C_{10} P(H_1 \mid H_0)P_0 + C_{01} P(H_0 \mid H_1)P_1$$
$$ \varphi(f) = C_{00} P(H_0 \mid H_0)P_0 + C_{11} P_DP_1 + C_{10} P_F P_0 + C_{01} P(H_0 \mid H_1)P_1$$
y después de este paso, es donde me atasco. La razón por la que estoy teniendo problemas para avanzar es porque, la forma que el texto sugiere como respuesta ni siquiera tiene los términos $P(f(y) = H_0 \mid H = H_0) = P(H_0 \mid H_0)$ y $ P(f(y) = H_0 \mid H = H_1) = P(H_0 \mid H_1)$ en cualquier lugar. Lo que me hace sospechar que puede haber una errata en el texto y $\gamma$ debería ser en realidad algo más que involucre $P(H_0 \mid H_1)$ o $P(f(y) = H_0 \mid H = H_0)$ . Incluso si eso fuera cierto, no me explico cómo el Riesgo de Bayes tiene un signo menos (como en $\alpha P_F - \beta P_D + \gamma$ ) aunque fuera cierto, a no ser que se anulara en alguna parte del $\gamma$ por algunos términos ocultos. ¿Alguien sabe dónde está la errata o si hay una forma de proceder desde el lugar donde me quedé atascado?