10 votos

La prueba de hipótesis y el total de la variación de la distancia frente de Kullback-Leibler divergencia

En mi investigación me han topado con el siguiente problema general: tengo dos distribuciones $P$ $Q$ sobre el mismo dominio, y un gran (pero finito) número de muestras de esas distribuciones. Las muestras son de forma independiente e idénticamente distribuidas de una de estas dos distribuciones (a pesar de que las distribuciones pueden ser relacionados: por ejemplo, $Q$ puede ser una mezcla de $P$ y en algunos otros de la distribución.) La hipótesis nula es que las muestras provienen de $P$, la hipótesis alternativa es que las muestras provienen de $Q$.

Estoy tratando de caracterizar el Tipo I y Tipo II de errores en la prueba de la muestra, a sabiendas de las distribuciones $P$$Q$. En particular, estoy interesado en la delimitación de un error dado que el otro, además del conocimiento de $P$$Q$.

He preguntado a una pregunta acerca de las matemáticas.SE sobre la relación de la Variación Total de la distancia entre el $P$ $Q$ a prueba de las hipótesis, y recibió una respuesta que he aceptado. Que respuesta tiene sentido, pero aún no he sido capaz de envolver mi mente alrededor del significado más profundo detrás de la relación de la Variación Total de la distancia y de la prueba de hipótesis como que se refiere a mi problema. Por lo tanto, he decidido recurrir a este foro.

Mi primera pregunta es: es la variación total enlazado en la suma de las probabilidades de Tipo I y de Tipo II errores independiente de la prueba de hipótesis el método que se emplea? En esencia, siempre existe una probabilidad no nula de que la muestra podría haber sido generado por una de las distribuciones de la probabilidad de que al menos uno de los errores debe ser distinto de cero. Básicamente, usted no puede escapar la posibilidad de que su hipótesis probador de cometer un error, no importa la cantidad de procesamiento de la señal que hacer. Y el Total de la Variación de los límites que exacta posibilidad. Es mi entendimiento correcto?

También hay otra relación entre el Tipo I y II, los errores y las distribuciones de probabilidad subyacentes $P$$Q$: la divergencia KL. Por lo tanto, mi segunda pregunta es: KL-divergencia obligado sólo aplicable a la hipótesis específica el método de prueba (que parece surgir en torno a la log-likelihood ratio método mucho) o se puede aplicar en general a través de todas las pruebas de hipótesis métodos? Si se aplica a través de todas las hipótesis de los métodos de prueba que ¿por qué parece ser muy diferente de la Variación Total bound? Se comporta de manera diferente?

Y mi pregunta es: ¿hay un conjunto prescrito de circunstancias, cuando debería utilizar cualquiera de los obligados, o es puramente una cuestión de conveniencia? Cuándo debe el resultado derivan de la utilización de uno obligado espera con el otro?

Me disculpo si estas preguntas son triviales. Yo soy un científico de la computación (por lo que esto parece como una fantasía de la coincidencia de patrones problema para mí :) .) Sé que la teoría de la información razonablemente bien, y se han graduado de fondo en la teoría de la probabilidad así. Sin embargo, estoy empezando a aprender todos de esta prueba de hipótesis cosas. Si es necesario, voy a hacer mi mejor esfuerzo para aclarar mis dudas.

8voto

David Pokluda Puntos 4284

Literatura: la Mayoría de la respuesta que usted necesita son, sin duda, en el libro de Lehman y Romano. El libro de Ingster y Suslina trata los temas más avanzados y que podría dar más respuestas.

Respuesta: sin Embargo, las cosas son muy simples: $L_1$ (o $TV$) es la "verdadera" de la distancia a ser utilizado. No es conveniente para el formal de la computación (especialmente con medidas del producto, es decir, cuando hayas iid muestra de tamaño $n$) y otras distancias (que son límites superiores de $L_1$) puede ser utilizado. Permítanme darles los detalles.

Desarrollo: nos Vamos a denotar por

  • $g_1(\alpha_0,P_1,P_0)$ el mínimo error de tipo II con error de tipo I$\leq\alpha_0$ $P_0$ $P_1$ la nula y la alternativa.
  • $g_2(t,P_1,P_0)$ la suma de los mínimos posibles $t$ tipo I + $(1-t)$ tipo II errores con $P_0$ $P_1$ la nula y la alternativa.

Estos son los mínimos errores que se deben analizar. Las igualdades (no límites inferiores) son dadas por el teorema 1, a continuación (en términos de $L_1$ distancia (o TV distancia si es que)). Las desigualdades entre los $L_1$ a distancia y otras distancias están dadas por el Teorema 2 (tenga en cuenta que para el límite inferior de los errores que usted necesita límites superiores de $L_1$ o $TV$).

Que obliga a utilizar, a continuación, es una cuestión de conveniencia debido a que $L_1$ es a menudo más difícil de calcular que Hellinger o de Kullback o $\chi^2$. El principal ejemplo de esta diferencia aparece cuando se $P_1$ $P_0$ son producto de las medidas de $P_i=p_i^{\otimes n}$ $i=0,1$ que surgen en el caso de que desee probar la $p_1$ frente al $p_0$ con un tamaño de $n$ iid de la muestra. En este caso, $h(P_1,P_0)$ y los demás se obtienen fácilmente a partir de $h(p_1,p_0)$ (el mismo para$KL$$\chi^2$), pero no podemos hacer eso con $L_1$ ...

Definición: La afinidad de $A_1(\nu_1,\nu_0)$ entre dos medidas de $\nu_1$ $\nu_2$ se define como $$A_1(\nu_1,\nu_0)=\int \min(d\nu_1,d\nu_0) $$.

Teorema 1 Si $|\nu_1-\nu_0|_1=\int|d\nu_1-d\nu_0|$ (la mitad de la TV dist), entonces

  • $2A_1(\nu_1,\nu_0)=\int (\nu_1+\nu_0)-|\nu_1-\nu_0|_1$.
  • $g_1(\alpha_0,P_1,P_0)=\sup_{t\in [0,1/\alpha_0]} \left ( A_1(P_1,tP_0)-t\alpha_0 \right )$
  • $g_2(t,P_1,P_0)=A_1(t P_0,(1-t)P_1)$

Escribí la prueba aquí.

Teorema 2 Para $P_1$ $P_0$ distribuciones de probabilidad: $$\frac{1}{2}|P_1-P_0|_1\leq h(P_1,P_0)\leq \sqrt{K(P_1,P_0)} \leq \sqrt{\chi^2(P_1,P_0)}$$

Estos límites se deben a varios conocidos estadísticos (LeCam, Pinsker,...) . $h$ es el Hellinger distancia, $K$ KL divergencia y $\chi^2$ chi-cuadrado de divergencia. Todos ellos son definidos aquí. y las pruebas de estos límites se dan (más cosas se pueden encontrar en el libro de Tsybacov). También hay algo que es casi un límite inferior de $L_1$ por Hellinger ...

1voto

UK Visa Works Puntos 29

Respuesta a tu primera pregunta: Sí, uno menos que el del total de la variación de la distancia es un límite inferior en la suma de las de Tipo I + Tipo II de las tasas de error. Este límite inferior se aplica sin importar lo que la prueba de hipótesis algoritmo que usted elija.

Justificación: La respuesta la tienes en las Matemáticas.SE da el estándar de prueba de este hecho. Corrección de una prueba de hipótesis. Deje $A$ denota el conjunto de los resultados en los que esta prueba se rechaza la hipótesis nula (por ejemplo un conjunto siempre debe existir). A continuación, el cálculo de la Matemática.SE la respuesta, demuestra que el límite inferior.

(Estrictamente hablando, esta línea de razonamiento se supone que la prueba de hipótesis es un procedimiento determinista. Pero incluso si usted se considera aleatorio procedimientos, es posible mostrar que el mismo límite todavía se aplica.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X