En un entorno en el que se observa $X_1,\ldots,X_n$ distribuido a partir de una distribución con densidad $f$ Me pregunto si existe un estimador insesgado (basado en la $X_i$ ') de la distancia de Hellinger a otra distribución con densidad $f_0$ , a saber $$ \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,. $$
Respuestas
¿Demasiados anuncios?No sé cómo construir (si existe) un estimador insesgado de la distancia de Hellinger. Parece posible construir un estimador consistente. Tenemos alguna densidad fija conocida $f_0$ y una muestra aleatoria $X_1,\dots,X_n$ de una densidad $f>0$ . Queremos estimar $$ H(f,f_0) = \sqrt{1 - \int_\mathscr{X} \sqrt{f(x)f_0(x)}\,dx} = \sqrt{1 - \int_\mathscr{X} \sqrt{\frac{f_0(x)}{f(x)}}\;\;f(x)\,dx} $$ $$ = \sqrt{1 - \mathbb{E}\left[\sqrt{\frac{f_0(X)}{f(X)}}\;\;\right] }\, , $$ donde $X\sim f$ . Por la SLLN, sabemos que $$ \sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{f(X_i)}}} \quad \rightarrow H(f,f_0) \, , $$ casi seguramente, como $n\to\infty$ . Por lo tanto, una forma razonable de estimar $H(f,f_0)$ sería tomar algún estimador de densidad $\hat{f_n}$ (como un estimador de densidad de núcleo tradicional) de $f$ y calcular $$ \hat{H}=\sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{\hat{f_n}(X_i)}}} \, . $$
No hay un estimador insesgado ni de $\mathfrak{H}$ o de $\mathfrak{H}^2$ existe para $f$ de cualquier clase razonablemente amplia de distribuciones no paramétricas.
Podemos demostrarlo con el hermoso y sencillo argumento de
Bickel y Lehmann (1969). Estimación insesgada en familias convexas . The Annals of Mathematical Statistics, 40 (5) 1523-1535. ( proyecto euclid )
Arreglar algunas distribuciones $F_0$ , $F$ y $G$ con las correspondientes densidades $f_0$ , $f$ y $g$ . Sea $H(F)$ denotan $\mathfrak{H}(f, f_0)$ , y que $\hat H(\mathbf X)$ sea algún estimador de $H(F)$ basado en $n$ muestras de iid $X_i \sim F$ .
Supongamos que $\hat H$ es insesgada para muestras de cualquier distribución de la forma $$M_\alpha := \alpha F + (1 - \alpha) G .$$ Pero entonces \begin{align} Q(\alpha) &= H(M_\alpha) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \,\mathrm{d}M_\alpha(x_1) \cdots\mathrm{d}M_\alpha(x_n) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \left[ \alpha \mathrm{d}F(x_1) + (1-\alpha) \mathrm{d}G(x_1) \right] \cdots \left[ \alpha \mathrm{d}F(x_n) + (1-\alpha) \mathrm{d}G(x_n) \right] \\&= \alpha^n \operatorname{\mathbb{E}}_{\mathbf X \sim F^n}[ \hat H(\mathbf X)] + \dots + (1 - \alpha)^n \operatorname{\mathbb{E}}_{\mathbf X \sim G^n}[ \hat H(\mathbf X)] ,\end{align} para que $Q(\alpha)$ debe ser un polinomio en $\alpha$ de grado como máximo $n$ .
Ahora, especialicémonos en un caso razonable y mostremos que la correspondiente $Q$ no es polinómica.
Dejemos que $F_0$ sea alguna distribución que tenga una densidad constante en $[-1, 1]$ : $f_0(x) = c$ para todos $\lvert x \rvert \le 1$ . (Su comportamiento fuera de ese rango no importa). Dejemos que $F$ ser alguna distribución soportada sólo en $[-1, 0]$ , y $G$ alguna distribución apoyada sólo en $[0, 1]$ .
Ahora \begin{align} Q(\alpha) &= \mathfrak{H}(m_\alpha, f_0) \\&= \sqrt{1 - \int_{\mathbb R} \sqrt{m_\alpha(x) f_0(x)} \mathrm{d}x} \\&= \sqrt{1 - \int_{-1}^0 \sqrt{c \, \alpha f(x)} \mathrm{d}x - \int_{0}^1 \sqrt{c \, (1 - \alpha) g(x)} \mathrm{d}x} \\&= \sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G} ,\end{align} donde $B_F := \int_{\mathbb R} \sqrt{f(x) f_0(x)} \mathrm{d}x$ y lo mismo para $B_G$ . Tenga en cuenta que $B_F > 0$ , $B_G > 0$ para cualquier distribución $F$ , $G$ que tienen una densidad.
$\sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G}$ no es un polinomio de grado finito. Por lo tanto, ningún estimador $\hat H$ puede ser imparcial para $\mathfrak{H}$ en todas las distribuciones $M_\alpha$ con un número finito de muestras.
Asimismo, porque $1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G$ tampoco es un polinomio, no hay ningún estimador para $\mathfrak{H}^2$ que es insesgada en todas las distribuciones $M_\alpha$ con un número finito de muestras.
Esto excluye prácticamente todas las clases razonables de distribuciones no paramétricas, excepto las que tienen densidades acotadas por debajo (una suposición que a veces hacen los análisis no paramétricos). Probablemente también se podrían eliminar esas clases con un argumento similar, haciendo que las densidades sean constantes o algo así.
4 votos
Por tanto, f0 es conocido y fijo. Pero, ¿se conoce f o es de una familia paramétrica o se está haciendo esto en un marco no paramétrico con todo lo que se sabe sobre f procedente de la muestra? Creo que esto marca la diferencia a la hora de intentar una respuesta.
3 votos
@MichaelChernick: asume todo lo que sabes sobre $f$ es la muestra $X_1,\ldots,X_n$ .
2 votos
No creo que se haya calculado (si es que existe). Si existe, entonces el AIC tiene un hermano perdido.
1 votos
Creo que estoy de acuerdo con Procrastinator. No tengo ni idea de cómo se podría hacer esto de forma no paramétrica. Se podría utilizar una estimación de la densidad del kernel de f. Pero la densidad seguramente no podría ser insesgada para todas las x. Entonces, ¿cómo se podría elegir un kernel que hiciera de esa función un estimador insesgado de la distancia? Esto es un problema aún peor si f y f0 tienen un rango no limitado, porque tus datos no te dan información sobre las colas más extremas, que todavía podrían desempeñar un papel en el cálculo de la integral. No puedo demostrar que sea imposible, pero creo que lo es.
4 votos
Un ataque a este problema parece factible si se asume $f$ y $f_0$ son discretos. Esto conduce a un estimador obvio (calcular la distancia de Hellinger entre la FED y $f_0$ ). La técnica de "bootstrap" (¡teóricamente, no mediante simulación!) nos dará una idea del posible sesgo, así como una forma de reducir (o incluso eliminar) el sesgo. Tengo alguna esperanza de tener éxito con el al cuadrado en lugar de la propia distancia, porque es matemáticamente más manejable. La suposición de una distancia discreta $f$ no es un problema en las aplicaciones; el espacio de las discretas $f$ es un subconjunto denso de todos modos.
0 votos
Gracias por las sugerencias. Más bien estaba pensando que, dado que la integral es una expectativa bajo $f$ La muestra podría ser utilizada como tal...
2 votos
Me viene a la mente la prueba de Rosenblatt de que no hay ningún estimador insesgado "de buena fe" de $f$ . Podemos superar esto y obtener un estimador no sesgado de $H(f,f_0)$ ? No lo sé.
1 votos
En línea con el primer comentario de Michael, si $\varphi$ es la función característica de $f$ podemos introducir la estimación habitual para $f$ utilizando la fórmula de inversión de Fourier: $\hat{f}(x)=\int_{-\infty}^\infty e^{-itx}\,r_w(t)\, \hat{\varphi}_n(t)\,dt$ , donde $r_w$ es un regularizador (necesario para que la integral sea finita) con tamaño de "ventana" $w$ y $\hat{\varphi}_n$ es la función característica empírica (por supuesto, tras la integración llegaremos a una estimación tradicional del núcleo).
1 votos
Ahora, si usamos este $\hat{f}$ para evaluar la distancia de Hellinger, tendremos un resultado que sí depende de $w$ , digamos que $H_w(\hat{f},f_0)$ . Así que mi pregunta (perdón) es si hay casos en los que tenemos $H_w(\hat{f},f_0) < H_w(\hat{f},f_1)$ , uniformemente en $w$ (es decir, para cada $w>0$ ), donde $f_1$ es otra densidad candidata conocida.
1 votos
Otra posibilidad es intentar demostrar que no existe un estimador insesgado de $H(f,f_0)$ con un argumento al estilo de Rosenblatt.
1 votos
@Zen: Interesante enlace, sin embargo $H(f,f_0)$ es un número mientras que $f$ es una función. Por lo tanto, no estoy convencido de que la conexión sea lo suficientemente fuerte....
1 votos
Sí, estaba pensando en eso... P.D. He visto su charla sobre el ABC en el sitio de la ISBA. Muy buena.