El final del preámbulo de la página de la wikipedia para el ley de la varianza total proporciona la siguiente fórmula para la varianza de $X$ donde $A_1,A_2,\ldots,A_n$ es la partición del espacio de resultados (es decir, eventos $A_1,A_2,\ldots,A_n$ son mutuamente excluyentes y exhacientes):
$$\tag{1}\operatorname{Var}(X)=\sum_{i=1}^n\operatorname{Var}(X|A_i)\operatorname{P}(A_i)-2\sum_{i=1}^n\sum_{j=1}^{i-1}\operatorname{E}(X|A_i)\operatorname{P}(A_i)\operatorname{E}(X|A_j)\operatorname{P}(A_j)$$
Esto se da sin pruebas. No veo cómo se deduce de la fórmula de descomposición de la varianza copiada del mismo artículo con variables $X$ y $Y$ respectivamente, se ha cambiado el nombre por el de $A$ y $X$ para hacerlos corresponder a la ecuación (1):
$$\operatorname{Var}(X)=\operatorname{E}_A(\operatorname{Var}(X|A))+\operatorname{Var}_A(\operatorname{E}(X|A))\tag{2}$$
Creo que $\operatorname{E}_A(\operatorname{Var}(X|A))=\sum_{i=1}^n\operatorname{Var}(X|A_i)\operatorname{P}(A_i)$ que coincide con el primero de los dos términos del lado derecho de (1) y (2), pero, mientras que en (1) el segundo término puede ser negativo (por ejemplo, cuando $\operatorname{E}(X|A_i)>0$ para todos $i=1,2,\ldots,n$ ), el segundo término de (2) es necesariamente positivo (ya que la varianza no puede ser negativa). Por lo tanto, estoy confundido.
Tal vez se me escapa algo. ¿Podría alguien aclarar y/o proporcionar una referencia con la derivación de (1)?