Con un espacio de probabilidad $(\Omega,\mathcal{A},P)$ es un teorema que para $X:\Omega\to\mathbb{R}^n$ y $W:\Omega\to\mathbb{R}^m$ El Predictor de error medio cuadrático mínimo (MMSE) de $X$ dado $W$ es $E[X\mid W]$ cuando existen todos los momentos necesarios; es decir, para todas las funciones $g:\mathbb{R}^m\to\mathbb{R}^n$ , $$E\,[\,\|X-E[X\mid W]\|^2\,] \le E\,[\,\|X-g(W)\|^2\,].$$ Tomando $n=1, m=2$ , $W=(Y,Z)$ y $g(Y,Z)=E[X\mid Y]$ da el resultado deseado: $$E[(X-E[X\mid Y,Z])^2] \le E[(X-E[X\mid Y])^2].$$ Tenga en cuenta que aquí hemos elegido $g: (y,z)\mapsto E[X\mid y].$ La demostración del teorema anterior se puede encontrar en artículos en línea, por ejemplo ici para una versión elemental.