Ampliaré aún más la respuesta de leonbloy, enfatizando el papel del cambio de variables para integrales, pero esta respuesta será autosuficiente.
Supongamos que X es una variable aleatoria con valores reales (definida en (Ω,P,F)). Digamos que X es una variable aleatoria muy complicada y deseas calcular su esperanza porque tal vez es un problema de ejercicio y tienes que enviar una solución. Digamos que no ves cómo calcular su esperanza hasta que un día tienes la sensación de que podría ser fácil calcular la esperanza de X restringida a la subsección Y=y donde Y es otra variable aleatoria real (auxiliar) (en Ω) que se te ocurrió, y donde y puede ser un número real arbitrario, y si adivinas que la esperanza a lo largo de la subsección es h(y) (donde h es alguna función escrita explícitamente, tal vez adivinas que h(y)=y2, o tal vez h(y)=y+1, ...), y ahora piensas que solo necesitas calcular ∫∞−∞h(y)dμ(y) (donde μ es la distribución de probabilidad de Y) porque tu intuición dice que el resultado de ese cálculo es exactamente el valor de E(X) (la intuición proviene de la generalización de la intuición en la respuesta de André Nicolas).
Supongamos que calculaste con éxito μ y luego también ∫∞−∞h(y)dμ(y). Ahora solo queda demostrar rigurosamente que ∫∞−∞h(y)dμ(y) es realmente igual a E(X) y de inmediato ves un pequeño problema: la expectativa a lo largo de una subsección particular como Y=2 puede no tener significado alguno porque Y=2$ podría ser un evento nulo.
Debo mencionar que si uno termina un curso de teoría de la medida, habrá pasado por la negación, la ira, el regateo, la depresión y llegará a la aceptación del hecho de que necesita convivir con muchas funciones medibles que están bien definidas solo en casi todas partes (en contraposición a definidas en todas partes), y funciones medibles que provienen de teoremas que solo garantizan la unicidad con respecto a casi igual. Luego tendrás alguna intuición de que el pequeño problema tiene una salida: (pero no de manera ingenua: ver la paradoja de Borel-Kolmogorov).
Aunque la expresión E[X | Y=2] (esperanza condicional de X dada la posiblemente nula Y=2) te elude por ahora, la expresión E[X|Y] está bien. Si tienes suerte, podrías probar que E[X|Y] = h(Y) se cumple casi en todas partes. Probar eso podría requerir la aplicación de propiedades de la expectativa condicional varias veces hasta llegar a la conclusión deseada E[X|Y] = h(Y). A veces comienzas con un argumento informal sobre por qué encuentras plausible la ecuación (sin sentido) E[X | Y = 2] = h(2) y luego sigues reemplazando pasos en el argumento informal en pasos rigurosos hasta que llegues a una demostración rigurosa de la ecuación (no sin sentido) $E[X|Y] = h(Y).
Supongamos que logras demostrar E[X|Y] = h(Y) Ahora, ¿qué queda? La propiedad de la torre ahora dice E[X] = E[h(Y)], pero el cambio de variables (para integral) dice E[h(Y)] = \int_{-\infty}^{\infty} h(y) d\mu(y) que ya has calculado. Así que has terminado. Has demostrado que E[X] es igual al resultado de tu cálculo.
Nota 1:
Algunas personas escriben h(y) como E[X | Y= y]. Está bien usar expresiones como E[X | Y= y]$ después de todo, si tú y los lectores están al tanto de las trampas.
Nota 2:
También conocida como la ley de la expectativa total.
Nota 3:
Si \mathcal G es una sub-sigma-álgebra, entonces todavía tenemos E[X] = E[E[X|\mathcal G]]. Si \mathcal G está generado por una familia finita o infinita contable de variables aleatorias, aún puedes dar una interpretación similar. Por ejemplo, si \mathcal G está generado por dos variables aleatorias reales Y, Z, entonces E[X] = E[E[X|\mathcal G]] es simplemente otra forma de decir E[X] = \int h(y,z) d\mu(y,z) donde h: \mathbb R^2 \to \mathbb R es alguna función medible que satisface E[X| \mathcal G] = h(Y,Z) y \mu es la distribución de probabilidad del conjunto (Y,Z).
La intuición.
La intuición para la propiedad de la torre es que, por ejemplo, E[X] = E[E[X| Y,Z]] (donde E[X| Y,Z] es simplemente E[X| (Y,Z)]) es simplemente una forma más concisa de decir $E[X] = \int h(y,z) d\mu(y,z).
Nota 4:
La conveniencia de usar algo como E[X] = E[E[X|Y, Z]] en lugar de E[X] = \int h(y,z) d\mu(y,z) radica en que con el primero mantienes la configuración en un solo espacio muestral \Omega mientras que el último implica dos espacios de probabilidad (\Omega, P) y $(\mathbb R^2, \mu).
3 votos
Es posible que desees echarle un vistazo a este post, en el que la última respuesta es la mejor intuición sobre expectativa condicional que he visto.