Intento comprender lo siguiente.
Tenemos dos variables aleatorias discretas distribuidas conjuntamente $X$ y $Y$ . Estamos intentando utilizar $X$ predecir $Y$ . Específicamente, usemos decidir alguna función $h(X)$ que podemos utilizar para predecir $Y$ tal que $h(X)$ es óptima. Es decir, $h(X)$ minimiza la $\text{MSE}=E\{[Y-h(X)]^2\}$ .
Observando esta expectativa, creo que para expresar la expectativa como una suma tendríamos
$$\sum_{x,y} p_{X,Y}(x,y)(y-h(x))^2,$$
donde $p_{X,Y}$ es el pmf conjunto de $X$ y $Y$ .
Pero aquí está el siguiente paso, tenemos (de la ley de la expectativa total):
$$E\{[Y-h(X)]^2\}=E(E\{[Y-h(X)]^2\mid X\})$$ donde sumamos la expectativa exterior con respecto a $X$ . Al darse cuenta de que la expectativa interna se minimiza fijando $h(x)$ igual a $E(Y\mid X=x)$ nos damos cuenta de que podemos minimizar $\text{MSE}$ .
Mi pregunta es, ¿sería cierto que $E(E\{[Y-h(X)]^2\mid X\}) $ es igual a la siguiente suma doble?
$$\sum_x \sum_y p_{Y\mid X}(y\mid x)p_X(x)(y-h(x))^2.$$
Estoy tratando de ampliar la expectativa para ver matemáticamente lo que está pasando aquí. Entiendo la intuición detrás de la idea de tener $h(x)$ igual a $E(Y\mid X=x)$ .