1 votos

¿Puede derivarse la característica de funcionamiento del LRT de la minimización del riesgo de Bayes? $ \varphi(f) = \alpha P_F - \beta P_D + \gamma$ ?

Por diversión estaba leyendo unos apuntes sobre Características de Funcionamiento y decía (parafraseado con definición de notación):

Como sugiere la Fig. 1 (omitida en la pregunta), una buena probabilidad de detección $P_D = P(\hat{H}(y) = H_1 \mid H = H_1)$ se obtiene generalmente a costa de una alta probabilidad de falsa alarma $P_F = P(\hat{H}(y) = H_1 \mid H = H_0)$ y, por lo tanto, elegir un umbral (LRT, Likely Ratio Test) $\eta$ para un problema concreto implica hacer un compromiso aceptable... Desde esta perspectiva, la prueba de hipótesis bayesiana (es decir, elegir una regla de decisión que minimice el riesgo de Bayes $\varphi(f) = \mathbb{E}_{H,y}[C(f(y), H)] $ ) representa un compromiso particular, y corresponde a un único punto de esta curva. Para obtener este equilibrio, hemos seleccionado como función objetivo una combinación lineal de $P_D$ y $P_F$ . Más concretamente, minimizamos: $$ \varphi(f) = \alpha P_F - \beta P_D + \gamma$$ sobre todas las reglas de decisión posibles, donde la elección de $\alpha$ y $\beta$ se determina, a su vez, por la asignación de costes $C_{ij}$ (donde i corresponde a la hipótesis elegida por la regla de decisión y j corresponde a la hipótesis correcta) y las probabilidades a priori $P_m$ 's.

y afirma para el caso binario que lo siguiente es cierto:

$$\alpha = (C_{10} - C_{00})P_0,$$ $$\beta=(C_{01} - C_{11})P_1,$$ $$ \gamma = (C_{00} + C_{01})P_1$$

Mi primera pregunta es: ¿por qué minimizamos?

$$ \varphi(f) = \alpha P_F - \beta P_D + \gamma$$

que no tiene mucho sentido para mí. ¿Por qué queremos minimizarlo? ¿Es porque simplemente queremos minimizar el riesgo esperado? (Además, ¿por qué esa ecuación expresa la compensación intrínseca entre $P_D$ y $P_F$ ?)De la notación, deduzco que se puede reescribir el Riesgo de Bayes y escribirlo en esa forma, sin embargo, he sido incapaz de hacerlo. Esto es lo que he intentado:

$$ \varphi(f) = \mathbb{E}_{H,y}[C(f(y), H)] = \sum_{H_j,y} C(f(y), H_j) P(y,H_j)$$

$$ \varphi(f) = \sum_{H_j} \sum_{H_i} \sum_{y : f(y) = H_i} C(f(y) = H_i, H_j) P(y \mid H_j) P(H_j)$$ $$ =\sum_{H_j,H_i} C(H_i, H_j) P(f(y) = H_i \mid H_j) P(H_j)$$ para el caso binario tenemos (fueron $P_i = P(H_i)$ , $C_{ij} = C(f(y) = H_i, H_j)$ , $P(H_i \mid H_j) = P(f(y) = H_i \mid H = H_j)$ ):

$$ \varphi(f) = C_{00} P(H_0 \mid H_0)P_0 + C_{11} P(H_1 \mid H_1)P_1 + C_{10} P(H_1 \mid H_0)P_0 + C_{01} P(H_0 \mid H_1)P_1$$

$$ \varphi(f) = C_{00} P(H_0 \mid H_0)P_0 + C_{11} P_DP_1 + C_{10} P_F P_0 + C_{01} P(H_0 \mid H_1)P_1$$

y después de este paso, es donde me atasco. La razón por la que estoy teniendo problemas para avanzar es porque, la forma que el texto sugiere como respuesta ni siquiera tiene los términos $P(f(y) = H_0 \mid H = H_0) = P(H_0 \mid H_0)$ y $ P(f(y) = H_0 \mid H = H_1) = P(H_0 \mid H_1)$ en cualquier lugar. Lo que me hace sospechar que puede haber una errata en el texto y $\gamma$ debería ser en realidad algo más que involucre $P(H_0 \mid H_1)$ o $P(f(y) = H_0 \mid H = H_0)$ . Incluso si eso fuera cierto, no me explico cómo el Riesgo de Bayes tiene un signo menos (como en $\alpha P_F - \beta P_D + \gamma$ ) aunque fuera cierto, a no ser que se anulara en alguna parte del $\gamma$ por algunos términos ocultos. ¿Alguien sabe dónde está la errata o si hay una forma de proceder desde el lugar donde me quedé atascado?

0voto

Shreyans Puntos 24

El objetivo de la pregunta es mostrar que en el marco de la prueba de hipótesis bayesiana (binaria), se puede escribir el riesgo esperado $\varphi(f) = \mathbb{E}_{H,y}[C(f(y), H)]$ como sigue:

$$ \varphi(f) = \alpha P_F - \beta P_D + \gamma$$

fueron $\alpha, \beta, \gamma $ son constantes que dependen de la función de costes ( $C_{i,j} = C(f(y) = H_i, H = H_j)$ ) elegidos y las probabilidades previas sobre la hipótesis ( $P_m$ 's).

Así que vamos a escribir lo que $ \varphi(f)$ significa y hacer algo de álgebra:

$$ \varphi(f) = \mathbb{E}_{H,y}[C(f(y), H)] = \sum_{H_j,y} C(f(y), H_j) P(y,H_j)$$

$$ \varphi(f) = \sum_{H_j} \sum_{H_i} \sum_{y : f(y) = H_i} C(f(y) = H_i, H_j) P(y \mid H_j) P(H_j)$$ $$ \varphi(f) =\sum_{H_j,H_i} C(H_i, H_j) P(f(y) = H_i \mid H_j) P(H_j)$$ para el caso binario tenemos (fueron $P_i = P(H_i)$ , $C_{ij} = C(f(y) = H_i, H_j)$ , $P(H_i \mid H_j) = P(f(y) = H_i \mid H = H_j)$ ):

$$ \varphi(f) = C_{00} P(H_0 \mid H_0)P_0 + C_{11} P(H_1 \mid H_1)P_1 + C_{10} P(H_1 \mid H_0)P_0 + C_{01} P(H_0 \mid H_1)P_1$$

$$ \varphi(f) = C_{00} P(H_0 \mid H_0)P_0 + C_{11} P_DP_1 + C_{10} P_F P_0 + C_{01} P(H_0 \mid H_1)P_1$$

Ahora, observe que queremos expresar el riesgo esperado en términos de la probabilidad de detección y la probabilidad de falsa alarma sólo . Para ello necesitamos encontrar la expresión para $P(H_0 \mid H_0)$ y $P(H_0 \mid H_1)$ en términos de $P_F$ y $P_D$ . Es fácil ver que las ecuaciones que necesitamos son:

$$P(H_0 \mid H_0) = 1 - P_F$$ y $$ P(H_0 \mid H_1)$ = 1 - P_D$$

Así que el riesgo esperado $ \varphi(f)$ se convierte:

$$ \varphi(f) = C_{00} (1 - P_F) P_0 + C_{11} P_D P_1 + C_{10} P_F P_0 + C_{01} (1 - P_D) P_1$$

$$ \varphi(f) = (C_{10} - C_{00}) P_0 P_F - (C_{01} - C_{11})P_1 P_D + C_{00}P_0 + C_{01} P_1$$

Así:

$$\alpha = (C_{10} - C_{00}) P_0 $$ $$\beta = (C_{01} - C_{11})P_1 $$ $$\gamma = C_{00}P_0 + C_{01} P_1 $$

según sea necesario $ \varphi(f) = \alpha P_F - \beta P_D + \gamma$ .

Para terminar con algunas observaciones interesantes, ¿por qué querríamos expresar así el riesgo esperado? Bueno, lo interesante es que si se traza una característica operativa (CO) para alguna prueba de hipótesis, se puede ver cómo una elección de priores determina qué punto $(P_D, P_F)$ en el OC que tendremos. Por lo tanto, una elección de los antecedentes y los costes elige intrínsecamente un punto $(P_D, P_F)$ .

Además, observe que hay una constante $\gamma$ que es irreducible (es decir, independiente de la regla de decisión $f$ que elijamos). Por lo tanto, hagamos lo que hagamos (a no ser que elijamos costes y antecedentes que sean exactamente cero como para hacer $\gamma$ es cero), puede haber algún error esperado irreducible que tendremos.

Por último, si somos capaces de demostrar que existe una compensación intrínseca entre grandes $P_D$ y pequeños $P_F$ entonces estas ecuaciones expresan este compromiso para el caso de la prueba de hipótesis bayesiana. Para ver esto de forma intuitiva, observe que si uno puede demostrar que $P_F$ y $P_D$ están relacionados positivamente (lo que se puede demostrar $\frac{d P_D}{d P_F} \geq 0$ ) entonces si $P_D$ se incrementa (para disminuir el riesgo esperado/de bayes) entonces $P_F$ también aumenta. Por lo tanto, no está claro cómo el aumento $P_D$ necesariamente conduciría a una disminución del riesgo medio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X