Intuitivamente, se puede pensar en $E(Y\mid X)$ como "nuestra mejor estimación de $Y$ El valor de la misma, dado $X$ " y está bastante claro que "nuestra mejor estimación para $Y$ dado nuestro mejor cálculo de $Y$ valor dado $X$ "debería ser el mismo que el estimado.
Un ejemplo concreto:
- Para el lado izquierdo, usted es un meteorólogo. Se le pregunta: "Dado que hoy es $X = 5^\circ$ exterior, cuál es su predicción para la temperatura de mañana ( $Y$ )?" Y tal vez usted responda $7^\circ$ . (En general, $E(Y\mid X)$ es una función que mapea la temperatura actual $X$ a una predicción de mañana).
- Para el lado derecho, usted es un meteorólogo. Se le dice: "Hace cinco minutos te he dicho la temperatura exterior y te he pedido que predigas la temperatura de mañana. Usted ha respondido $7^\circ$ . Entonces borré tu memoria. Teniendo en cuenta sólo lo que respondiste entonces, ¿cuál es tu predicción para la temperatura de mañana?" Obviamente, deberías (suponiendo que sea honesto) responder $7^\circ$ .
Para una prueba formal, tome Definición de Wikipedia de expectativa condicional .
La propiedad que caracteriza a $E(Y\mid X)$ es que es una función medible de $X$ que satisface, para cualquier medida $f$ , $$ \int E(Y\mid X) f(X)\,\text{d}P = \int Y f(X)\,\text{d}P. $$ En particular, esto implica que para cualquier función medible $f$ , $$ \int E(Y\mid X) f(E(Y\mid X))\,\text{d}P = \int Y f(E(Y\mid X))\,\text{d}P $$ porque $f(E(Y\mid X))$ también es función medible de $X$ . Así que $E(Y\mid X)$ satisface la propiedad caracterizadora de $E(Y\mid E(Y \mid X))$ , por lo que está de acuerdo con $E(Y\mid E(Y \mid X))$ casi siempre.
Una prueba "de alto nivel" de este hecho es la siguiente. La "propiedad de la torre" de la expectativa condicional dice que en general $E(E(A\mid B)\mid C) = E(A \mid C)$ cuando $C$ es $B$ -medible (intuitivamente, al conocer el valor de $B$ te dice $C$ ).
En particular, $E(Y\mid X)$ es $X$ -medible. Así que tenemos $$ E(E(Y\mid X) \mid E(Y\mid X)) = E(Y \mid E(Y\mid X)) $$ aplicando la propiedad de la torre con $A = Y$ , $B=X$ , $C = E(Y\mid X)$ . Pero $E(A\mid A)=A$ para cualquier $A$ Así que $E(E(Y\mid X) \mid E(Y\mid X))$ se simplifica a $E(Y\mid X)$ y concluimos que $E(Y\mid X) = E(Y \mid E(Y\mid X))$ como se desee.