21 votos

¿Existe un estimador insesgado de la distancia de Hellinger entre dos distribuciones?

En un entorno en el que se observa $X_1,\ldots,X_n$ distribuido a partir de una distribución con densidad $f$ Me pregunto si existe un estimador insesgado (basado en la $X_i$ ') de la distancia de Hellinger a otra distribución con densidad $f_0$ , a saber $$ \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,. $$

4 votos

Por tanto, f0 es conocido y fijo. Pero, ¿se conoce f o es de una familia paramétrica o se está haciendo esto en un marco no paramétrico con todo lo que se sabe sobre f procedente de la muestra? Creo que esto marca la diferencia a la hora de intentar una respuesta.

3 votos

@MichaelChernick: asume todo lo que sabes sobre $f$ es la muestra $X_1,\ldots,X_n$ .

2 votos

No creo que se haya calculado (si es que existe). Si existe, entonces el AIC tiene un hermano perdido.

13voto

farzad Puntos 4180

No sé cómo construir (si existe) un estimador insesgado de la distancia de Hellinger. Parece posible construir un estimador consistente. Tenemos alguna densidad fija conocida $f_0$ y una muestra aleatoria $X_1,\dots,X_n$ de una densidad $f>0$ . Queremos estimar $$ H(f,f_0) = \sqrt{1 - \int_\mathscr{X} \sqrt{f(x)f_0(x)}\,dx} = \sqrt{1 - \int_\mathscr{X} \sqrt{\frac{f_0(x)}{f(x)}}\;\;f(x)\,dx} $$ $$ = \sqrt{1 - \mathbb{E}\left[\sqrt{\frac{f_0(X)}{f(X)}}\;\;\right] }\, , $$ donde $X\sim f$ . Por la SLLN, sabemos que $$ \sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{f(X_i)}}} \quad \rightarrow H(f,f_0) \, , $$ casi seguramente, como $n\to\infty$ . Por lo tanto, una forma razonable de estimar $H(f,f_0)$ sería tomar algún estimador de densidad $\hat{f_n}$ (como un estimador de densidad de núcleo tradicional) de $f$ y calcular $$ \hat{H}=\sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{\hat{f_n}(X_i)}}} \, . $$

7voto

Bauna Puntos 176

No hay un estimador insesgado ni de $\mathfrak{H}$ o de $\mathfrak{H}^2$ existe para $f$ de cualquier clase razonablemente amplia de distribuciones no paramétricas.

Podemos demostrarlo con el hermoso y sencillo argumento de

Bickel y Lehmann (1969). Estimación insesgada en familias convexas . The Annals of Mathematical Statistics, 40 (5) 1523-1535. ( proyecto euclid )

Arreglar algunas distribuciones $F_0$ , $F$ y $G$ con las correspondientes densidades $f_0$ , $f$ y $g$ . Sea $H(F)$ denotan $\mathfrak{H}(f, f_0)$ , y que $\hat H(\mathbf X)$ sea algún estimador de $H(F)$ basado en $n$ muestras de iid $X_i \sim F$ .

Supongamos que $\hat H$ es insesgada para muestras de cualquier distribución de la forma $$M_\alpha := \alpha F + (1 - \alpha) G .$$ Pero entonces \begin{align} Q(\alpha) &= H(M_\alpha) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \,\mathrm{d}M_\alpha(x_1) \cdots\mathrm{d}M_\alpha(x_n) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \left[ \alpha \mathrm{d}F(x_1) + (1-\alpha) \mathrm{d}G(x_1) \right] \cdots \left[ \alpha \mathrm{d}F(x_n) + (1-\alpha) \mathrm{d}G(x_n) \right] \\&= \alpha^n \operatorname{\mathbb{E}}_{\mathbf X \sim F^n}[ \hat H(\mathbf X)] + \dots + (1 - \alpha)^n \operatorname{\mathbb{E}}_{\mathbf X \sim G^n}[ \hat H(\mathbf X)] ,\end{align} para que $Q(\alpha)$ debe ser un polinomio en $\alpha$ de grado como máximo $n$ .

Ahora, especialicémonos en un caso razonable y mostremos que la correspondiente $Q$ no es polinómica.

Dejemos que $F_0$ sea alguna distribución que tenga una densidad constante en $[-1, 1]$ : $f_0(x) = c$ para todos $\lvert x \rvert \le 1$ . (Su comportamiento fuera de ese rango no importa). Dejemos que $F$ ser alguna distribución soportada sólo en $[-1, 0]$ , y $G$ alguna distribución apoyada sólo en $[0, 1]$ .

Ahora \begin{align} Q(\alpha) &= \mathfrak{H}(m_\alpha, f_0) \\&= \sqrt{1 - \int_{\mathbb R} \sqrt{m_\alpha(x) f_0(x)} \mathrm{d}x} \\&= \sqrt{1 - \int_{-1}^0 \sqrt{c \, \alpha f(x)} \mathrm{d}x - \int_{0}^1 \sqrt{c \, (1 - \alpha) g(x)} \mathrm{d}x} \\&= \sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G} ,\end{align} donde $B_F := \int_{\mathbb R} \sqrt{f(x) f_0(x)} \mathrm{d}x$ y lo mismo para $B_G$ . Tenga en cuenta que $B_F > 0$ , $B_G > 0$ para cualquier distribución $F$ , $G$ que tienen una densidad.

$\sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G}$ no es un polinomio de grado finito. Por lo tanto, ningún estimador $\hat H$ puede ser imparcial para $\mathfrak{H}$ en todas las distribuciones $M_\alpha$ con un número finito de muestras.

Asimismo, porque $1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G$ tampoco es un polinomio, no hay ningún estimador para $\mathfrak{H}^2$ que es insesgada en todas las distribuciones $M_\alpha$ con un número finito de muestras.

Esto excluye prácticamente todas las clases razonables de distribuciones no paramétricas, excepto las que tienen densidades acotadas por debajo (una suposición que a veces hacen los análisis no paramétricos). Probablemente también se podrían eliminar esas clases con un argumento similar, haciendo que las densidades sean constantes o algo así.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X