6 votos

Exponente de error en las pruebas de hipótesis

En las pruebas de hipótesis, hay que decidir entre dos distribuciones de probabilidad $P_1(x)$ y $P_2(x)$ en un conjunto finito $X$ tras observar $n$ muestras i.i.d. $x_1,...,x_n$ extraída de la distribución desconocida. Sea $A_n\subseteq X^n$ denota la región de aceptación elegida para $P_1$ . Las probabilidades de error de tipo I y II pueden expresarse así

$$ \alpha_n = P^n_1(A^c_n)$$ $$ \beta_n = P^n_2(A_n)$$

(Cover & Thomas, Cap. 11 es una excelente referencia para las definiciones y hechos mencionados en este post).

Supongamos que hemos elegido las regiones de aceptación $A_n$ 's ( $n\geq 1$ ), de modo que ambas probabilidades de error se aproximan a cero a medida que aumenta el número de observaciones: $\alpha_n\rightarrow 0$ y $\beta_n\rightarrow 0$ como $n\rightarrow \infty$ . El Lemma de Stein nos dice que la tasa máxima de deacreación de ambas probabilidades de error viene determinada, hasta el primer orden del exponente, por la distancia KL entre las distribuciones dadas. Más concretamente

$$ -\frac 1 n \log \alpha_n \rightarrow D(P_2||P_1)\tag{1}$$ $$ -\frac 1 n \log \beta_n \rightarrow D(P_1||P_2)\tag{2}$$

Consideremos ahora la versión bayesiana del problema de comprobación de hipótesis. En este caso, $P_1$ y $P_2$ se dan probabilidades a priori $\pi_1$ y $\pi_2$ respectivamente, y la probabilidad de error se obtiene ponderando $\alpha_n$ y $\beta_n$ :

$$ e_n = \pi_1\alpha_n + \pi_2\beta_n.\tag{3}$$

En este caso, el exponente óptimo para $e_n$ viene dada por la distancia de Chernoff entre las distribuciones dadas:

$$ -\frac 1 n \log e_n \rightarrow C(P_1,P_2).$$

Pregunta ¿Qué hay de erróneo en el siguiente razonamiento? (Descargo de responsabilidad: soy no tratando de ser totalmente formal/detallado aquí).

Según (3), la tasa de disminución de $e_n$ es la tasa mínima de deacrease de $\alpha_n$ y $\beta_n$ :

$$ \lim -\frac 1 n \log e_n = \min\{\lim -\frac 1 n \log \alpha_n, \lim -\frac 1 n \log \beta_n\}$$ .

Desde $e_n\rightarrow 0$ hay que tener los dos $\alpha_n\rightarrow 0$ y $\beta_n\rightarrow 0$ como $n\rightarrow \infty$ . Así, por las consideraciones anteriores sobre el Lemma de Stein, y (1) y (2), se obtendría

$$ \lim -\frac 1 n \log e_n = \min\{D(P_1||P_2), \,\,D(P_2||P_1)\}$$

que es muy diferente de $C(P_1,P_2)$ .

EDITAR : Ahora me doy cuenta de que (1) y (2) no pueden cumplirse simultáneamente, para las mismas regiones $A_n$ 's, por lo que este debe ser el error en el razonamiento.

Lo que se puede deducir mediante un razonamiento similar es justo, creo yo,

$$C(P_1,P_2)\leq \min\{D(P_1||P_2), \,\,D(P_2||P_1)\}.$$

6voto

Dilip Sarwate Puntos 16161

Esencialmente, la respuesta a su pregunta es que el comportamiento de $\alpha_n$ y $\beta_n$ es algo diferente cuando se utiliza la regla bayesiana de probabilidad de error mínimo y se intenta minimizar $e_n$ . Esto se debe porque las regiones de decisión $A_n$ y $A_n^c$ son diferentes. En contraste con sus (1) y (2), el comportamiento es de la forma

$$\begin{align*} -\frac{1}{n}\log \alpha_n &\rightarrow D(P_\lambda||P_1)\\ -\frac{1}{n} \log \beta_n &\rightarrow D(P_\lambda ||P_2) \end{align*}$$

para que

$$ \lim -\frac{1}{n} \log e_n = \min\{D(P_\lambda||P_1), \,\,D(P_\lambda||P_2)\}. $$

Desde $D(P_\lambda||P_1)$ es una función creciente de $\lambda$ mientras que $D(P_\lambda||P_2)$ es una función decreciente de $\lambda$ , elegir $\lambda$ tal que $D(P_\lambda||P_1)=D(P_\lambda||P_2)$ da $C(P_1,P_2)$ .

Todo esto se describe en el capítulo 12 de la primero edición de Cover y Thomas. ¿Se ha suprimido en la segunda edición, ya que nos remite al capítulo 11 de Cover y Thomas?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X