Loading [MathJax]/jax/element/mml/optable/Latin1Supplement.js

44 votos

Explicación intuitiva de la propiedad de la torre de la expectativa condicional

Entiendo cómo definir la expectativa condicional y cómo demostrar que existe.

Además, creo que entiendo intuitivamente lo que significa expectativa condicional. También puedo demostrar la propiedad de la torre, es decir, si X y Y son variables aleatorias (o Y un σ-álgebra) entonces tenemos que

E[X]=E[E[X|Y]].

Mi pregunta es: ¿Cuál es el significado intuitivo de esto? Me parece bastante desconcertante.

(Podría encontrar preguntas similares pero no esta.)

3 votos

Es posible que desees echarle un vistazo a este post, en el que la última respuesta es la mejor intuición sobre expectativa condicional que he visto.

38voto

palehorse Puntos 8268

Primero, recordemos que en E[X|Y] estamos tomando la expectativa con respecto a X, y por lo tanto puede escribirse como E[X|Y]=EX[X|Y]=g(Y). Debido a que es una función de Y, es una variable aleatoria, y por lo tanto podemos tomar su expectativa (ahora con respecto a Y). Entonces la doble expectativa debería leerse como $E_Y[E_X[X|Y]].

Sobre el significado intuitivo, existen varios enfoques. Me gusta pensar en la expectativa como una especie de predictor/apuesta (de hecho, es el predictor que minimiza el error cuadrático medio).

Supongamos, por ejemplo, que X,Y son dos variables (positivamente) correlacionadas, como el peso y la altura de las personas de una población dada. La expectativa del peso E(X) sería mi mejor apuesta por el peso de una persona desconocida: apostaría por ese valor, si no se me proporcionara más datos (mi apuesta desinformada es constante). En cambio, si conozco la altura, apostaría por E(X|Y): eso significa que para diferentes personas apostaría por un valor diferente, y mi apuesta informada no sería constante: a veces apostaría más que la "apuesta desinformada" E(X) (para personas altas), a veces menos. Surge la pregunta natural, ¿puedo decir algo sobre mi apuesta informada en promedio? Bueno, la propiedad de la torre responde: En promedio, apostarás lo mismo.


Agregado: Estoy de acuerdo (diez años después) con el comentario de @Did a continuación. Mi notación aquí es engañosa, una expectativa está definida en sí misma, tiene poco o ningún sentido especificar "con respecto a Y". En mi respuesta aquí intento aclarar esto, y conciliar este hecho con los (muchos) ejemplos en los que se califica (subíndices) la expectativa (con respecto a...).

3 votos

El primer párrafo contiene expresiones indefinidas y potencialmente confusas: no sabría cómo definir la expectativa con respecto a X ni el operador EX en la notación EX[X|Y] (así mismo para términos similares basados en $Y`).

0 votos

EX() es simplemente una notación para enfatizar que estamos integrando sobre la variable X.

3 votos

Precisamente: la expresión estamos integrando sobre la variable X no significa nada (a diferencia de la convencional integrar una variable aleatoria o integrar sobre un conjunto o integrar con respecto a una medida).

18voto

Oli Puntos 89

Para situaciones discretas simples de las cuales se obtienen las intuiciones más básicas, el significado es claro.

Tengo una bolsa grande de monedas sesgadas. Supongamos que la mitad de ellas favorecen las caras, con una probabilidad de cabeza de 0.7. Dos quintos de ellas favorecen las caras, con una probabilidad de cabeza de 0.8. Y el resto favorece las caras, con una probabilidad de cabeza de 0.9.

Escoge una moneda al azar, tírala, digamos una vez. Para encontrar el número esperado de caras, calcula las expectativas, dadas las diversas posibilidades de sesgo. Luego, promedia las respuestas, teniendo en cuenta las proporciones de los diferentes tipos de moneda.

Es intuitivamente claro que este procedimiento formal "debería" dar aproximadamente la misma respuesta que el proceso altamente informal de, por ejemplo, repetir el experimento 1000 veces y dividir por 1000. Porque si lo hacemos de esa manera, en alrededor de 500 casos obtendremos el primer tipo de moneda, y de estos 500 obtendremos alrededor de 350 caras, y así sucesivamente. La aritmética informal refleja exactamente el proceso más formal descrito en el párrafo anterior.

Si es más convincente, podemos imaginar lanzar la moneda elegida 12 veces.

0 votos

@user929304: No puedo responder por quizás bastante tiempo (médicamente). Si las cosas van bien, podré mirarlo en unos días. En caso de que me olvide, por favor deja un recordatorio dentro de tres días.

0 votos

@user929304: Le di una breve mirada y no vi una contribución útil que pudiera hacer. Lo siento, miraré de nuevo debido a tu expresión de interés continuo. Pero otros también deben haber mirado y llegado a una conclusión similar.

0 votos

Querido Andre, lamento molestarte con esto, solo quería saber si estás interesado en esta publicación reciente mía, math.stackexchange.com/questions/1902250/…, en última instancia estoy tratando de aprender un método para abordar este problema, de manera que pueda extenderlo a un escenario con dos ranas (ver comentarios en la respuesta de Luke). Muchas gracias de antemano por cualquier ayuda.

14voto

Matthew Scouten Puntos 2518

El valor esperado de X sigue siendo el valor esperado de X cuando se tienen en cuenta los posibles valores de $Y.

3voto

user36205 Puntos 11

Ampliaré aún más la respuesta de leonbloy, enfatizando el papel del cambio de variables para integrales, pero esta respuesta será autosuficiente.

Supongamos que X es una variable aleatoria con valores reales (definida en (Ω,P,F)). Digamos que X es una variable aleatoria muy complicada y deseas calcular su esperanza porque tal vez es un problema de ejercicio y tienes que enviar una solución. Digamos que no ves cómo calcular su esperanza hasta que un día tienes la sensación de que podría ser fácil calcular la esperanza de X restringida a la subsección Y=y donde Y es otra variable aleatoria real (auxiliar) (en Ω) que se te ocurrió, y donde y puede ser un número real arbitrario, y si adivinas que la esperanza a lo largo de la subsección es h(y) (donde h es alguna función escrita explícitamente, tal vez adivinas que h(y)=y2, o tal vez h(y)=y+1, ...), y ahora piensas que solo necesitas calcular h(y)dμ(y) (donde μ es la distribución de probabilidad de Y) porque tu intuición dice que el resultado de ese cálculo es exactamente el valor de E(X) (la intuición proviene de la generalización de la intuición en la respuesta de André Nicolas).

Supongamos que calculaste con éxito μ y luego también h(y)dμ(y). Ahora solo queda demostrar rigurosamente que h(y)dμ(y) es realmente igual a E(X) y de inmediato ves un pequeño problema: la expectativa a lo largo de una subsección particular como Y=2 puede no tener significado alguno porque Y=2$ podría ser un evento nulo.

Debo mencionar que si uno termina un curso de teoría de la medida, habrá pasado por la negación, la ira, el regateo, la depresión y llegará a la aceptación del hecho de que necesita convivir con muchas funciones medibles que están bien definidas solo en casi todas partes (en contraposición a definidas en todas partes), y funciones medibles que provienen de teoremas que solo garantizan la unicidad con respecto a casi igual. Luego tendrás alguna intuición de que el pequeño problema tiene una salida: (pero no de manera ingenua: ver la paradoja de Borel-Kolmogorov).

Aunque la expresión E[X | Y=2] (esperanza condicional de X dada la posiblemente nula Y=2) te elude por ahora, la expresión E[X|Y] está bien. Si tienes suerte, podrías probar que E[X|Y] = h(Y) se cumple casi en todas partes. Probar eso podría requerir la aplicación de propiedades de la expectativa condicional varias veces hasta llegar a la conclusión deseada E[X|Y] = h(Y). A veces comienzas con un argumento informal sobre por qué encuentras plausible la ecuación (sin sentido) E[X | Y = 2] = h(2) y luego sigues reemplazando pasos en el argumento informal en pasos rigurosos hasta que llegues a una demostración rigurosa de la ecuación (no sin sentido) $E[X|Y] = h(Y).

Supongamos que logras demostrar E[X|Y] = h(Y) Ahora, ¿qué queda? La propiedad de la torre ahora dice E[X] = E[h(Y)], pero el cambio de variables (para integral) dice E[h(Y)] = \int_{-\infty}^{\infty} h(y) d\mu(y) que ya has calculado. Así que has terminado. Has demostrado que E[X] es igual al resultado de tu cálculo.

Nota 1:

Algunas personas escriben h(y) como E[X | Y= y]. Está bien usar expresiones como E[X | Y= y]$ después de todo, si tú y los lectores están al tanto de las trampas.

Nota 2:

También conocida como la ley de la expectativa total.

Nota 3:

Si \mathcal G es una sub-sigma-álgebra, entonces todavía tenemos E[X] = E[E[X|\mathcal G]]. Si \mathcal G está generado por una familia finita o infinita contable de variables aleatorias, aún puedes dar una interpretación similar. Por ejemplo, si \mathcal G está generado por dos variables aleatorias reales Y, Z, entonces E[X] = E[E[X|\mathcal G]] es simplemente otra forma de decir E[X] = \int h(y,z) d\mu(y,z) donde h: \mathbb R^2 \to \mathbb R es alguna función medible que satisface E[X| \mathcal G] = h(Y,Z) y \mu es la distribución de probabilidad del conjunto (Y,Z).

La intuición.

La intuición para la propiedad de la torre es que, por ejemplo, E[X] = E[E[X| Y,Z]] (donde E[X| Y,Z] es simplemente E[X| (Y,Z)]) es simplemente una forma más concisa de decir $E[X] = \int h(y,z) d\mu(y,z).

Nota 4:

La conveniencia de usar algo como E[X] = E[E[X|Y, Z]] en lugar de E[X] = \int h(y,z) d\mu(y,z) radica en que con el primero mantienes la configuración en un solo espacio muestral \Omega mientras que el último implica dos espacios de probabilidad (\Omega, P) y $(\mathbb R^2, \mu).

1voto

ryaron Puntos 11

Piénsalo como paralelo a la ley de Bayes sobre probabilidades condicionales. Las expectativas condicionales forman una partición del espacio muestral de Y. En el caso discreto, la ley de Bayes dice: p(A) = p(A|B)p(B) + p(A|~B)p(B) por otro lado: p(A) = E(x)1_A

1_A es la función indicadora de A.

0 votos

La probabilidad condicional se define en términos de expectativa condicional, por lo que este razonamiento es un poco circular, pero siempre y cuando te ayude, todo está bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X