Para su primera pregunta: suponga que $\pi$ es una partición de $X$ . Para cada $A\in\pi$ debemos tener o bien $\mu(A)\geq\nu(A)$ ou $\mu(A)<\nu(A)$ . Sea $\pi_{\geq}$ y $\pi_{<}$ representan los subconjuntos de la partición con cada una de estas propiedades.
Entonces defina $$ P_\pi:=\bigcup_{A\in \pi_{\geq}}A\qquad N_\pi:=\bigcup_{A\in\pi_{<}}A. $$ Hay que tener en cuenta algunas cosas:
-
Tenemos $\mu(N_\pi)=1-\mu(P_\pi)$ y $\nu(N_\pi)=1-\nu(P_\pi)$ .
-
Tenga en cuenta que $$ \begin{align*} \sum_{A\in\pi}\lvert\mu(A)-\nu(A)\rvert&=\sum_{A\in\pi_{\geq}}\lvert\mu(A)-\nu(A)\rvert+\sum_{A\in\pi_{<}}\lvert\mu(A)-\nu(A)\rvert\\ &=\sum_{A\in\pi_{\geq}}(\mu(A)-\nu(A))+\sum_{A\in\pi_<}(\nu(A)-\mu(A))\\ &=\sum_{A\in\pi_{\geq}}\mu(A)-\sum_{A\in\pi_{\geq}}\nu(A)+\sum_{A\in\pi_{<}}\nu(A)-\sum_{a\in\pi_{<}}\mu(A)\\ &=\mu(P_\pi)-\nu(P_\pi)+\nu(N_\pi)-\mu(N_\pi). \end{align*} $$ (¡Hay algunos pasos que justificar ahí!)
-
Ahora bien, tenga en cuenta que $X$ es la unión disjunta de $P_\pi$ y $N_\pi$ y por lo tanto $$ \mu(P_\pi)-\mu(N_\pi)=\mu(P_\pi)-(1-\mu(P_\pi))=2\mu(P_\pi)-1 $$ y de manera similar $\nu(P)-\nu(N)=2\nu(P)-1$ . Por lo tanto, tenemos $$ \sum_{A\in\pi}\lvert\mu(A)-\nu(A)\rvert=2(\mu(P_\pi)-\nu(P_\pi))=2\lvert\mu(P_\pi)-\nu(P_\pi)\rvert. $$ Por lo tanto, ahora podemos concluir que $$ \sup_{\pi}\sum_{A\in\pi}\lvert\mu(A)-\nu(A)\rvert=2\sup_{\pi}\lvert\mu(P_\pi)-\nu(P_\pi)\lvert. $$
Lo que queda es demostrar que $$ \sup_\pi\lvert\mu(P_\pi)-\nu(P_\pi)\rvert=\sup_{A\in\Sigma}\lvert\mu(A)-\nu(A)\rvert. $$ Por un lado, $P_\pi\in\Sigma$ para todos $\pi$ para que $$ \sup_{\pi}\lvert\mu(P_\pi)-\nu(P_\pi)\lvert\leq\sup_{A\in\Sigma}\lvert\mu(A)-\nu(A)\rvert. $$ Por otro lado, para cualquier $A\in\Sigma$ se puede observar que $X=A\dot\cup(X\setminus A)$ es una partición, lo que demuestra la otra dirección.
En cuanto a la segunda pregunta sobre las "grandes distancias", depende mucho del contexto. Pero no cabe duda de que existe una asimetría en la variación total. Por ejemplo, $\nu$ y $\mu$ para ser medidas de probabilidad. Entonces, la distancia de variación total consiste básicamente en encontrar un suceso en el que las dos medidas discrepen lo máximo posible. Así que la distancia de variación total $0$ te dice mucho: las distribuciones son esencialmente idénticas. Pero la distancia de variación total 1 te dice que básicamente puedes dividir el espacio de eventos en uno donde $\mu$ reina y una en la que $\nu$ lo hace; esto puede ser importante o no, dependiendo de lo que ocurra en la parte inferior de su distribución de probabilidad. Tal vez, por ejemplo, se aferra a alguna propiedad que no es realmente relevante para la pregunta que estás tratando de hacer.