Empecemos con las definiciones. En primer lugar, $X$ y $Y$ son variables aleatorias, por lo que son mapas medibles desde espacios de probabilidad (podrían ser diferentes) a $\mathbb R$ . Utilizamos $P$ para denotar las medidas en estos dos espacios de probabilidad.
$X,Y$ son variables aleatorias que tienen una densidad conjunta $f$ con respecto a la medida de Lebesgue $\lambda^2$ .
¿Qué significa esto? Significa que para cualquier $A \subset \mathbb R^2$ tenemos : $$ P((X,Y) \in A) = \int_{A} f(x,y) \lambda^2(dxdy) $$
Ahora estamos definiendo $f_X(x) = \int_{\mathbb R}f(x,y) \lambda(dy)$ es decir, estamos integrando $f$ sólo sobre $y$ , manteniendo $x$ arreglado. Claramente $f_X(x) > 0$ para $P_X$ -a.a.
¿Por qué es cierta esta afirmación? En primer lugar, ¿qué es $P_X$ ? Es la medida sobre $\mathbb R$ dado por $P_X(A) = P(X \in A)$ . Ahora, ¿cómo demostramos que $f_X(x) > 0$ a.a. $P_X$ ?
Dejemos que $A$ sea $P_X$ medible. $$ P(X \in A) = P((X, Y) \in A \times \mathbb R) = \int_{A \times \mathbb R} f(x,y) \lambda^2(dxdy) $$
Pero ahora usamos el teorema de Fubini:
$$ \int_{A \times \mathbb R} f(x,y) \lambda^2(dxdy) = \int_{A} \left(\int_{\mathbb R} f(x,y) \lambda(dy)\right) dx = \int_A f_X(x)\lambda( dx) $$
En conclusión, tenemos la siguiente identidad útil : $$ \bbox[yellow , 5px, border:2px solid red]{ P_X(A) = P(X \in A) = \int_{A} f_X(x) \lambda(dx) }\tag{1} $$
Por cada $A$ que es $P_X$ medible. Obsérvese que utilizando funciones simples, MCT y división positiva-negativa, se obtiene lo siguiente para cualquier $g$ que es $P_X$ medible tenemos : $$ \int_{\mathbb R} g(x)P_X(dx) = \int_{\mathbb R} g(x)f_X(x) \lambda(dx) \tag{2} $$
Ahora, dejemos que $N$ sea el conjunto en el que $f_X(x) = 0$ . Desde $(1)$ , obtenemos : $$ P_X(N) = \int_{N} f_X(x) \lambda(dx) = \int_N 0 \lambda(dx) = 0 $$
y por lo tanto obtenemos que $f_X > 0$ casi en todas partes $P_X$ .
A continuación, la declaración "dudosa" :
La parte absolutamente continua de $\lambda$ con respecto a $P_X$ , tiene una densidad $f_X^{-1}$ .
Usted sabrá que $\lambda$ se divide de forma única, con respecto a $P_X$ en una parte absolutamente continua y una parte mutuamente singular, es decir, hay dos medidas $\mu_1$ y $\mu_2$ tal que $\lambda = \mu_1 + \mu_2$ y $\mu_1 << P_X$ y $\mu_2 \perp P_X$ . Estamos reclamando que $\mu_1 << P_X$ tiene la densidad $f_X^{-1}$ .
Ahora, observe que para cada $A$ tenemos $\lambda(A) = \lambda(A \cap N) + \lambda(A \cap N^c)$ donde $N$ es el conjunto en el que $f_X$ es cero. Ahora bien, hay que tener en cuenta que $P_X(A \cap N) = 0$ por lo que si definimos $\mu_2(A) = \lambda(A \cap N)$ entonces esto es mutuamente singular a $P_X$ ya que $P_X(N) = \mu_2(N^c) = 0$ .
Nuestro candidato para $\mu_1$ es por lo tanto $\mu_1(A) = \lambda(A \cap N^c)$ . Para ver que esto es absolutamente continuo con respecto a $P_X$ utilizamos el hecho de que $f_X$ es invertible en $N^c$ . Más concretamente, $$ \lambda(A \cap N^c) = \int_{A \cap N^c} 1 \lambda(dx) = \int_{A \cap N^c} \frac{1}{f_X(x)} f_X(x) \lambda(dx) \overset{(2)}{=} \int_{A \cap N^c} \frac{1}{f_X(x)} dP_X $$
y por lo tanto, ya que $A$ es arbitraria, el candidato a $\mu_1$ es correcta, y está claro que la densidad es $\frac 1{f_X(x)}$ o $f_X^{-1}$ de la parte absolutamente continua de $\lambda$ que es $\mu_1$ con respecto a $P_X$ .
Esencialmente, un argumento que encuentra la distribución condicional regular de $Y$ con respecto a $X$ .
Definamos una distribución condicional regular de $Y$ dado $X$ . En este caso, se trata de un mapa $K$ de $\mathbb R \times \mathcal B(\mathbb R) \to [0,1]$ de manera que se cumplan tres cosas :
-
$K(r, \cdot) : \mathcal B(\mathbb R) \to [0,1]$ es una medida de probabilidad sobre conjuntos de Borel para todo $r \in \mathbb R$ .
-
$K(\cdot , A) : \mathbb R \to [0,1]$ es una función medible de Borel para cada Borel $A$ .
-
Tenemos $K(x,A) = P((Y \in A) | X = x)$ casi seguramente $P_X$ es decir, el conjunto de $x$ para los que la desigualdad anterior no se cumple para algunos $A$ , ha $P_X$ medida cero.
Tenemos que hacer un poco de decodificación aquí. La cuestión es que es cierto que para las $x$ el mapa $B \to K(x,B)$ es una medida de probabilidad sobre $\mathbb R$ . La cuestión es, con respecto a qué medida ¿estamos calculando la densidad? Creo que Klenke ha sido un poco flojo aquí, ya que hay muchas medidas en $\mathbb R$ actualmente en contexto. Sin embargo, indaguemos de todos modos en el argumento de Klenke.
Primero define la función $f_{Y | X}(x,y) = \frac{f(x,y)}{f_X(x)}$ . Esto no se puede definir si $x \in N$ por lo que dice que esto se define en casi todas partes con respecto a $P_X$ . Ahora bien, si esta tiene que ser la densidad, entonces la integración de esta función tiene que estar ocurriendo sobre la medida $P_X$ porque $P_X$ ignora el conjunto donde lo anterior es indefinido, ya que $P_X(N) = 0$ .
Ahora, Klenke tiene esta notación $P[X \in dx]$ , pues eso es lo mismo que $P_X(dx)$ . Es decir, $$ \int_{A} P(X \in dx) \int_B f_{Y|X} (x,y) \lambda(dy) = \int_{A} \color{blue}{\left(\int_{B} f_{Y|X}(x,y) \lambda(dy)\right)} P_X(dx) $$
así que esencialmente lo que Klenke quiere mostrar es que la parte azul de arriba es $K(x,B)$ . Ahora, la parte azul es una integral con respecto a la medida de Lebesgue por lo que la densidad de $K(x,\cdot)$ como medida se está describiendo efectivamente con respecto a la medida de Lebesgue. La función $g_x(y)$ es $f_{Y | X}(x,y)$ . Es decir, para cada $B$ tenemos : $$ K(x,B) = \int_{B} g_x(y) \lambda(dy) = \int_B f_{Y|X}(x,y) \lambda(dy) $$
Ahora entendamos el argumento de Klenke, y de dónde viene la primera línea de su argumento. Para ello voy a repasar todo el asunto.
Escribamos primero lo que para Klenke es la probabilidad condicional regular de forma explícita : $$ K(x,A) = \int_{A} f_{Y|X}(x,y) \lambda(dy) $$
Ahora, debemos verificar las tres cosas (por qué toma valores en $[0,1]$ ?). Vayamos paso a paso:
-
Fijar $x$ . Entonces, $K(x,\cdot)$ es una medida simplemente porque la integral es contablemente aditiva.
-
Fijar $A$ . Entonces, el mapa $x \to \int_A f_{Y|X}(x,y) \lambda(dy)$ es medible, lo que se muestra en la demostración del teorema de Fubini (por eso somos capaces de integrarlo para obtener la buena definición de un lado de Fubini). Por lo tanto, se deduce la mensurabilidad.
-
La tercera parte consiste en comprobar que $P(Y \in B | X = x) = K(x,B)$ casi seguramente $P_X$ . La cuestión es que es $P(Y \in B | X = x)$ ? La cuestión es que $Y \in B$ es un evento, por lo que $P(Y \in B | X)$ es lo mismo que $E[1_{Y \in B} | X]$ que es una expectativa condicional. Ahora, esta expectativa condicional es por definición $\sigma(X)$ - medible, y por lo tanto se puede ver que debe ser una función de Borel de $X$ a.e. $P_X$ , digamos que $E[1_{Y \in B} | X] = \phi(X)$ para algún Borel $\phi$ . Ahora, $P(Y \in B | X = x) = \phi(x)$ .
Así que lo que tenemos esencialmente es un candidato para la expectativa condicional de $1_{Y \in B}$ dado $X$ , a saber $\omega \to K(X(\omega),B)$ (como un mapa del dominio de $X$ a $[0,1]$ ), y lo estamos verificando.
Por lo tanto, hacemos lo que solemos hacer para verificar las expectativas condicionales: encontrar la integral de $K(x,B)$ sobre un conjunto $A$ y verificar que es igual a la integral de $1_{Y \in B}$ en $A$ . ¿Integral con respecto a qué medida? De hecho, la rcd es con respecto a $X$ por lo que la medida es $P_X$ ¡!
Así, empezamos con $\int_{A} K(x,B) P_X(dx)$ Amplíe esto, y vea que coincide con la primera línea del argumento de Klenke que es la línea que te confundió sobre la densidad de $K(x,B)$ y así sucesivamente.
Ampliamos : $$ \int_A P_X(dx) \int_B \frac{f(x,y)}{f_X(x)} \lambda(dy) $$
Ahora eliminamos el $f_X(x)$ parte del primer término, y utilizar $(1)$ : $$ \int_{A} f_{X}(x)^{-1}P_X(dx) \color{green}{\int_B f(x,y) \lambda(dy)} \overset{\mu_1 << P_X}{=} \int_A \int_B f(x,y) \lambda^2(dxdy) = P(X \in A,Y \in B) $$
Sin embargo, también observamos que : $$ P(X \in A, Y \in B) = \int_A 1_{Y \in B} P_X(dx) $$
Por lo tanto, obtenemos la siguiente igualdad para todo $P_X$ medible $A$ : $$ \int_{A} 1_{Y \in B} P_X(dx) = \int_A K(x,B) P_X(dx) $$
que nos dice que $K(x,B) = P(Y \in B | X = x)$ a.e. $P_X$ ¡como se desee!
Creo que este es un tema difícil, ya sabes, y realmente deberías tomarte el tiempo para moler cada detalle hasta el polvo. Además, con frecuencia utilizarás núcleos estocásticos si sigues avanzando en los procesos estocásticos (los procesos de Markov, etc., se definen a través de núcleos, y teoremas como el teorema de extensión de Ionescu-Tulcea se enuncian en este lenguaje), así que ponte cómodo antes de sumergirte en aguas profundas.