Un lema técnico
No sé hasta qué punto es intuitivo, pero el principal resultado técnico que subyace a su afirmación del Teorema Halmos-Savage es el siguiente:
Lema. Sea $\mu$ ser un $\sigma$ -medida finita en $(S, \mathcal{A})$ . Supongamos que $\aleph$ es una colección de medidas sobre $(S, \mathcal{A})$ tal que para cada $\nu \in \aleph$ , $\nu \ll \mu$ . Entonces existe una secuencia de números no negativos $\{c_i\}_{i=1}^\infty$ y una secuencia de elementos de $\aleph$ , $\{\nu_i\}_{i=1}^\infty$ tal que $\sum_{i=1}^\infty c_i = 1$ y $\nu \ll \sum_{i=1}^\infty c_i \nu_i$ para cada $\nu \in \aleph$ .
Esto está tomado textualmente del Teorema A.78 de Schervish's Teoría de la Estadística (1995) . Allí lo atribuye a Lehmann Comprobación de hipótesis estadísticas (1986) ( enlace a la tercera edición ), cuyo resultado se atribuye a Halmos y Savage (véase el lema 7). Otra buena referencia es Shao's Estadística matemática (segunda edición, 2003) donde los resultados relevantes son el Lemma 2.1 y el Teorema 2.2.
El lema anterior establece que si se parte de una familia de medidas dominada por una $\sigma$ -medida finita, entonces de hecho se puede sustituir la medida dominante por una combinación convexa contable de medidas de dentro de la familia. Schervish escribe antes de enunciar el Teorema A.78,
"En aplicaciones estadísticas, a menudo tendremos una clase de medidas, cada una de las cuales es absolutamente continua con respecto a una $\sigma$ -medida finita. Sería bueno que la medida dominante única estuviera en la clase original o que pudiera construirse a partir de la clase. El siguiente teorema aborda este problema".
Un ejemplo concreto
Supongamos que tomamos una medida de una cantidad $X$ que creemos que se distribuye uniformemente en el intervalo $[0, \theta]$ para algún desconocido $\theta > 0$ . En este problema estadístico, estamos considerando implícitamente el conjunto $\mathcal{P}$ de medidas de probabilidad de Borel sobre $\mathbb{R}$ consistente en las distribuciones uniformes en todos los intervalos de la forma $[0, \theta]$ . Es decir, si $\lambda$ denota la medida de Lebesgue y, para $\theta > 0$ , $P_\theta$ denota el $\operatorname{Uniform}([0, \theta])$ distribución (es decir $$ P_\theta(A) = \frac{1}{\theta} \lambda(A \cap [0, \theta]) = \int_A \frac{1}{\theta} \mathbf{1}_{[0, \theta]}(x) \, dx $$ para todo Borel $A \subseteq \mathbb{R}$ ), entonces tenemos simplemente $$ \mathcal{P} = \{P_\theta : \theta > 0\}. $$ Este es el conjunto de distribuciones candidatas para nuestra medición $X$ .
La familia $\mathcal{P}$ está claramente dominada por la medida de Lebesgue $\lambda$ (que es $\sigma$ -finito), por lo que el lema anterior (con $\aleph = \mathcal{P}$ ) garantiza la existencia de una secuencia $\{c_i\}_{i=1}^\infty$ de números no negativos que suman $1$ y una secuencia $\{Q_i\}_{i=1}^\infty$ de distribuciones uniformes en $\mathcal{P}$ tal que $$ P_\theta \ll \sum_{i=1}^\infty c_i Q_i $$ para cada $\theta > 0$ . En este ejemplo, ¡podemos construir tales secuencias explícitamente!
En primer lugar $(\theta_i)_{i=1}^\infty$ sea una enumeración de los números racionales positivos ( esto puede hacerse explícitamente ), y que $Q_i = P_{\theta_i}$ para cada $i$ . A continuación $c_i = 2^{-i}$ de modo que $\sum_{i=1}^\infty c_i = 1$ . Afirmo que esta combinación de $\{c_i\}_{i=1}^\infty$ y $\{Q_i\}_{i=1}^\infty$ funciona.
Para verlo, fije $\theta > 0$ y que $A$ sea un subconjunto de Borel de $\mathbb{R}$ tal que $\sum_{i=1}^\infty c_i Q_i(A) = 0$ . Tenemos que demostrar que $P_\theta(A) = 0$ . Desde $\sum_{i=1}^\infty c_i Q_i(A) = 0$ y cada sumando es no negativo, se deduce que $c_i Q_i(A) = 0$ para cada $i$ . Además, dado que cada $c_i$ es positivo, se deduce que $Q_i(A) = 0$ para cada $i$ . Es decir, para todos $i$ tenemos $$ Q_i(A) = P_{\theta_i}(A) = \frac{1}{\theta_i} \lambda(A \cap [0, \theta_i]) = 0. $$ Puesto que cada $\theta_i$ es positivo, se deduce que $\lambda(A \cap [0, \theta_i]) = 0$ para cada $i$ .
Elija ahora una subsecuencia $\{\theta_{i_k}\}_{k=1}^\infty$ de $\{\theta_i\}_{i=1}^\infty$ que converge a $\theta$ desde arriba (esto se puede hacer desde $\mathbb{Q}$ es denso en $\mathbb{R}$ ). Entonces $A \cap [0, \theta_{\theta_{i_k}}] \downarrow A \cap [0, \theta]$ como $k \to \infty$ por lo que por continuidad de medida concluimos que $$ \lambda(A \cap [0, \theta]) = \lim_{k \to \infty} \lambda(A \cap [0, \theta_{i_k}]) = 0, $$ y así $P_\theta(A) = 0$ . Esto demuestra la afirmación.
Por lo tanto, en este ejemplo hemos sido capaces de construir explícitamente una combinación convexa contable de medidas de probabilidad de nuestra familia dominada que todavía domina toda la familia. El lema anterior garantiza que esto puede hacerse para cualquier familia dominada (al menos mientras la medida dominante sea $\sigma$ -finito).
Teorema Halmos-Savage
Pasemos ahora al Teorema de Halmos-Savage (para el que utilizaré una notación ligeramente distinta a la de la pregunta debido a preferencias personales). Dado el teorema de Halmos-Savage, el teorema de factorización de Fisher-Neyman está a sólo una aplicación del lema de Doob-Dynkin y de la regla de la cadena para las derivadas de Radon-Nikodym.
Teorema de Halmos-Savage. Sea $(\mathcal{X}, \mathcal{B}, \mathcal{P})$ sea un modelo estadístico dominado (lo que significa que $\mathcal{P}$ es un conjunto de medidas de probabilidad sobre $\mathcal{B}$ y hay un $\sigma$ -medida finita $\mu$ sur $\mathcal{B}$ tal que $P \ll \mu$ para todos $P \in \mathcal{P}$ ). Sea $T : (\mathcal{X}, \mathcal{B}) \to (\mathcal{T}, \mathcal{C})$ sea una función medible, donde $(T, \mathcal{C})$ es un espacio de Borel estándar. Entonces los siguientes son equivalentes:
- $T$ es suficiente para $\mathcal{P}$ (lo que significa que existe un núcleo de probabilidad $r : \mathcal{B} \times \mathcal{T} \to [0, 1]$ tal que $r(B, T)$ es una versión de $P(B \mid T)$ para todos $B \in \mathcal{B}$ y $P \in \mathcal{P}$ ).
- Existe una secuencia $\{c_i\}_{i=1}^\infty$ de números no negativos tales que $\sum_{i=1}^\infty c_i = 1$ y una secuencia $\{P_i\}_{i=1}^\infty$ de medidas de probabilidad en $\mathcal{P}$ tal que $P \ll P^*$ para todos $P \in \mathcal{P}$ donde $P^* = \sum_{i=1}^\infty c_i P_i$ y para cada $P \in \mathcal{P}$ existe un $T$ -versión medible de $dP/dP^*$ .
Prueba. Por el lema anterior, podemos sustituir inmediatamente $\mu$ por $P^* = \sum_{i=1}^\infty c_i P_i$ para alguna secuencia $\{c_i\}_{i=1}^\infty$ de números no negativos tales que $\sum_{i=1}^\infty c_i = 1$ y una secuencia $\{P_i\}_{i=1}^\infty$ de medidas de probabilidad en $\mathcal{P}$ .
(1. implica 2.) Supongamos que $T$ es suficiente. Entonces debemos demostrar que hay $T$ -versiones medibles de $dP/dP^*$ para todos $P \in \mathcal{P}$ . Sea $r$ sea el núcleo de probabilidad del enunciado del teorema. Para cada $A \in \sigma(T)$ y $B \in \mathcal{B}$ tenemos $$ \begin{aligned} P^*(A \cap B) &= \sum_{i=1}^\infty c_i P_i(A \cap B) \\ &= \sum_{i=1}^\infty c_i \int_A P_i(B \mid T) \, dP_i \\ &= \sum_{i=1}^\infty c_i \int_A r(B, T) \, dP_i \\ &= \int_A r(B, T) \, dP^*. \end{aligned} $$ Así $r(B, T)$ es una versión de $P^*(B \mid T)$ para todos $B \in \mathcal{B}$ .
Para cada $P \in \mathcal{P}$ , dejemos que $f_P$ denotan una versión de la derivada de Radon-Nikodym $dP/dP^*$ en el espacio medible $(\mathcal{X}, \sigma(T))$ (en particular $f_P$ es $T$ -medible). Entonces para todo $B \in \mathcal{B}$ y $P \in \mathcal{P}$ tenemos $$ \begin{aligned} P(B) &= \int_{\mathcal{X}} P(B \mid T) \, dP \\ &= \int_{\mathcal{X}} r(B, T) \, dP \\ &= \int_{\mathcal{X}} r(B, T) f_P \, dP^* \\ &= \int_{\mathcal{X}} P^*(B \mid T) f_P \, dP^* \\ &= \int_{\mathcal{X}} E_{P^*}[\mathbf{1}_B f_P \mid T] \, dP^* \\ &= \int_B f_P \, dP^*. \end{aligned} $$ Así, de hecho $f_P$ es un $T$ -versión medible de $dP/dP^*$ sur $(\mathcal{X}, \mathcal{B})$ . Esto demuestra que la primera condición del teorema implica la segunda.
(2. implica 1.) Supongamos que se puede elegir a $T$ -versión mensurable $f_P$ de $dP/dP^*$ para cada $P \in \mathcal{P}$ . Para cada $B \in \mathcal{B}$ , dejemos que $r(B, t)$ denotan una versión particular de $P^*(B \mid T = t)$ (por ejemplo $r(B, t)$ es una función tal que $r(B, T)$ es una versión de $P^*(B \mid T)$ ). Dado que $(T, \mathcal{C})$ es un espacio de Borel estándar, podemos elegir $r$ de forma que se convierta en un núcleo de probabilidad (véase, por ejemplo, el Teorema B.32 de la obra de Schervish Teoría de la Estadística (1995)). Demostraremos que $r(B, T)$ es una versión de $P(B \mid T)$ para cualquier $P \in \mathcal{P}$ y cualquier $B \in \mathcal{B}$ . Por lo tanto $A \in \sigma(T)$ y $B \in \mathcal{B}$ se dará. Entonces para todos $P \in \mathcal{P}$ tenemos $$ \begin{aligned} P(A \cap B) &= \int_A \mathbf{1}_B f_P \, dP^* \\ &= \int_A E_{P^*}[\mathbf{1}_B f_P \mid T] \, dP^* \\ &= \int_A P^*(B \mid T) f_P \, dP^* \\ &= \int_A r(B, T) f_P \, dP^* \\ &= \int_A r(B, T) \, dP. \end{aligned} $$ Esto demuestra que $r(B, T)$ es una versión de $P(B \mid T)$ para cualquier $P \in \mathcal{P}$ y cualquier $B \in \mathcal{B}$ y la prueba está hecha.
Resumen. El resultado técnico importante que subyace al teorema de Halmos-Savage tal como se presenta aquí es el hecho de que una familia dominada de medidas de probabilidad está dominada en realidad por una combinación convexa contable de medidas de probabilidad de esa familia. Teniendo en cuenta este resultado, el resto del teorema de Halmos-Savage consiste principalmente en manipulaciones con propiedades básicas de las derivadas de Radon-Nikodym y las expectativas condicionales.