Para un contraejemplo para sus dos primeros casos, vamos a $X,Z$ ser independiente Rademacher, variables aleatorias y $Y = X+Z$. En $P$, supongamos $X$ es Rademacher($p$) para algunos $p$ (es decir,$P(X=1) = p$, $P(X=-1)=1-p$), y $Z$ es Rademacher(1/2). En $Q$, supongamos $X,Z$ son tanto Rademacher(1/2). En cada caso, tome $Y=X+Z$ como usted sugiere.
Ahora se puede comprobar que $$P_{X,Y} = \frac{p}{2} (\delta_{(1,2)} + \delta_{(1,0)}) + \frac{1-p}{2} (\delta_{(-1,0)} +\delta_{(-1,-2)})$$
y $Q_{X,Y}$ es el mismo con $p=1/2$. Usted puede calcular directamente que el total de la variación de la distancia entre el $P_{X,Y}$ $Q_{X,Y}$ $|1-2p|$ y, en particular, se va a cero, como se $p \to 1/2$.
Después, en $P$, ten en cuenta que
$$E[X \mid Y] = \begin{cases} 1, & Y=2 \\ -1, & Y = -2 \\ p - \frac{1}{2}, & Y=0 \end{cases}$$
donde estos eventos tienen probabilidades $p/2$, $(1-p)/2$, $1/2$ respectivamente. Por lo tanto
$$P_{E[X \mid Y]} = \frac{p}{2} \delta_1 + \frac{1-p}{2} \delta_{-1} + \frac{1}{2} \delta_{p - \frac{1}{2}}$$
y $Q_{E[X \mid Y]}$ es el mismo con $p=1/2$. En particular, para $p \ne 1/2$ el total de la variación de la distancia entre el $P_{E[X \mid Y]}$ $Q_{E[X \mid Y]}$ es siempre al menos 1.
A la tercera pregunta, mientras los medios, el "condicional" es realmente irrelevante, así que podemos aprovechar $Y=0$ en todos los casos. Fix $n$ y supongamos que $P(X=n) = 1/n$, $P(X=0) = 1-1/n$, y $Q(X=0)=1$. El total de la variación de la distancia entre el $P_X$ $Q_X$ (y de la misma manera $P_{X,Y}, Q_{X,Y}$)$2/n$, que va de 0 $n \to \infty$. Pero en$P$, $E[X \mid Y] = E[X] = 1$ cualquier $n$, mientras que en las $Q$ es 0.
El problema básico es que para cualquier espacio de estado $E$, la variación total de la topología en el espacio $\mathcal{P}(E)$ de probabilidad de medidas en $E$ no es capaz de detectar la topología de $E$, pero solo en sus medibles de la estructura. Por lo que no se puede saber si dos puntos de $E$ están muy cerca o de lejos, pero sólo si están o no en el mismo punto. Esta es la razón por la topología débil es más útil para la mayoría de propósitos.