Como indicó Robert, el mapa $K\times[1,2]\rightarrow\mathcal{M}(\mathbb{R})$ dado por $$(\mu,\sigma)\mapsto \mu_{m,\sigma}(dx)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac12\big(\frac{x-m}{\sigma}\big)^2}\, dx$$ donde $\mathcal{M}(\mathbb{R})$ es el espacio de las medidas de Borel de variación finita, es continua. Esto puede verse mediante una aplicación de la convergencia dominada para demostrar que $$\lim_{(m,\sigma)\rightarrow(m_0,\sigma_0)} \int_{\mathbb{R}} \Big|\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac12\big(\frac{x-m}{\sigma}\big)^2} - \frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac12\big(\frac{x-m_0}{\sigma_0}\big)^2}\Big|\,dx=0$$
para cualquier punto $(m,\sigma)\in K\times[2,3]$ .
- Al menos en probabilidad, la convergencia en variación finita no se utiliza mucho (se trata como una curiosidad: Dudley, R. M, Análisis real y probabilidad, 1989, sección 9.3 ), y más bien se prefiere la convergencia débil (o a veces la convergencia vaga).
- Una secuencia de medida $\mu_n$ en $(\mathbb{R},\mathscr{B}(\mathbb{R}))$ converge a $\mu$ en la variación total, entonces se sigue la convergencia débil. Pero lo contrario no se cumple a menudo en las aplicaciones. Consideremos una secuencia $x_n\xrightarrow{n\rightarrow\infty}x$ en $\mathbb{R}$ . Entonces $\|\delta_{x_n}-\delta_x\|_{TV}=2$ a menos que $x_n=x$ sin embargo, $\delta_{x_n}$ converge débilmente a $\delta_x$ es decir $\delta_{x_n}f\xrightarrow{n\rightarrow\infty}\delta_xf$ para toda función continua acotada $f$ en $\mathbb{R}$ .
- Otro ejemplo similar es el caso en que $\mu_n$ es una secuencia de variables aleatorias normales con media $m_n=\frac{1}{n}$ y varianza $\sigma_n=\frac1n$ . Observando la función característica de $\mu_n$ obtenemos que $\widehat{\mu_n}(t)=\exp\big(i t\frac{1}{n})-\frac{1}{2n^2}t^2\big)\xrightarrow{n\rightarrow\infty}1$ que es la función característica de $\delta_0(dx)$ . Así $\mu_n$ converge débilmente a $\delta_1$ pero $\|\mu_n-\delta_0\|_{TV}=2$ desde $\mu_n$ y $\delta_0$ son mutuamente singulares.
- Un ejemplo más importante de por qué la convergencia débil es preferible a la convergencia de variación total es el del teorema del límite central. Si se consideran distribuciones discretas, por ejemplo, no se produce convergencia en variación finita (las medidas discretas son singulares con respecto a la distribución normal)
- La variación total y otras métricas (métricas de Wasserstain) para medidas de probabilidad se utilizan en otras áreas de probabilidad y análisis, por ejemplo en problemas de transporte óptimo. Una gran referencia al respecto es Villani. C., Optimal transport, old and new, Springer 2008