Si se adopta un enfoque bayesiano y se tratan los parámetros que describen la distribución de $X$ como una variable aleatoria/vector, entonces las observaciones son efectivamente no independientes, pero serían condicionalmente independiente dado el conocimiento de $\theta$ de ahí $P(X_n \mid X_{n-1}, \ldots X_1, \theta) = P(X_n \mid \theta)$ se mantendría.
En un enfoque estadístico clásico, $\theta$ es no es una variable aleatoria. Los cálculos se hacen como si supiéramos lo que $\theta$ es. En cierto sentido, siempre estás condicionando en $\theta$ (aunque no conozcas el valor).
Cuando escribió: "... proporcionar información sobre la estructura de distribución, y como resultado sobre $X_n$ "implícitamente estabas adoptando un enfoque bayesiano pero sin hacerlo con precisión. Estás escribiendo una propiedad de las muestras IID que escribiría un frecuentista, pero la afirmación correspondiente en una configuración bayesiana implicaría condicionar a $\theta$ .
Estadísticos bayesianos frente a estadísticos clásicos
Sea $x_i$ ser el resultado de lanzar una moneda desigual e injusta. No sabemos la probabilidad de que la moneda salga cara.
- Para el estadístico clásico, el frecuentista, $P(x_i = H)$ es algún parámetro, llamémoslo $\theta$ . Observe que $\theta$ aquí es un escalar, como el número 1/3. Puede que no sepamos qué número es, ¡pero es un número! Es no ¡al azar!
- Al estadístico bayesiano, $\theta$ es una variable aleatoria. Esto es extremadamente diferente.
La idea clave aquí es que el estadístico bayesiano extiende las herramientas de la probabilidad a situaciones en las que el estadístico clásico no . Para el frecuentista, $\theta$ no es una variable aleatoria porque sólo tiene un valor posible ¡! No es posible obtener múltiples resultados. Sin embargo, en la imaginación del bayesiano, múltiples valores de $\theta$ son posibles, y el bayesiano está dispuesto a modelar esa incertidumbre (en su propia mente) utilizando las herramientas de la probabilidad.
¿Adónde va esto?
Digamos que tiramos la moneda $n$ veces. Una vuelta no afecta al resultado de la otra. El estadístico clásico las llamaría tiradas independientes (y de hecho lo son). Tendremos: $$P(x_n=H \mid x_{n-1}, x_{n-2}, \ldots,x_{1}) = P(x_n=H) = \theta $$ Dónde $\theta$ es un parámetro desconocido. (Recuerde, no sabemos lo que es, pero es no una variable aleatoria Es un número cualquiera).
Un bayesiano profundo en la probabilidad subjetiva diría que lo que importa es la probabilidad ¡desde su perspectiva! . Si ve 10 caras seguidas, es más probable que salga una undécima cara, porque 10 caras seguidas inducen a pensar que la moneda está inclinada a favor de la cara.
$$P(x_{11} = H \mid x_{10}=H, x_{9}=H, \ldots,x_{1}=H) > P(x_1 = H)$$
¿Qué ha pasado aquí? ¿Qué ha cambiado? Actualización de creencias sobre una variable aleatoria latente $\theta$ ¡! Si $\theta$ se trata como una variable aleatoria, las vueltas ya no son independientes. Pero, las vueltas son condicionalmente independientes dado el valor de $\theta$ .
$$P(x_{11} = H \mid x_{10}=H, x_{9}=H, \ldots,x_{1}=H, \theta) = P(x_1 = H \mid \theta) = \theta $$
Acondicionamiento en $\theta$ en cierto sentido conecta cómo el bayesiano y el estadístico clásico modelan el problema. O dicho de otro modo, el estadístico frecuentista y el bayesiano estarán de acuerdo en que si las condiciones bayesianas sobre $\theta$ .
Notas complementarias
He intentado dar una breve introducción, pero lo que he hecho es, en el mejor de los casos, bastante superficial y los conceptos son, en cierto sentido, bastante profundos. Si quieres sumergirte en la filosofía de la probabilidad, el libro de Savage de 1954, Fundamentos de Estadística es un clásico. Busca en Google bayesiano vs. frecuentista y aparecerán un montón de cosas.
Otra forma de pensar en los sorteos del IID es Teorema de Finetti y la noción de intercambiabilidad . En un marco bayesiano, la intercambiabilidad es equivalente a la independencia condicionada a alguna variable aleatoria latente (en este caso, el sesgo de la moneda).