Para mí, la noción de lo que realmente es la i.i.d. y por qué es, en muchos casos, una necesario tiene más sentido desde la perspectiva bayesiana. En este caso, en lugar de considerar los datos como i.i.d. en sentido absoluto, se piensa en ellos como condicionalmente i.i.d. parámetros del modelo dados .
Por ejemplo, consideremos un modelo normal desde la perspectiva bayesiana. Especificamos cómo creemos que se muestrearon los datos dados los parámetros:
$X_i|\mu, \sigma^2 \stackrel{iid}{\sim} N(\mu, \sigma^2)$ para $i \in \{1, \ldots, n\}$ ,
y expresar una creencia previa sobre esos parámetros:
$\mu \sim P(\mu)$ ; $\sigma^2 \sim P(\sigma^2)$ (la prioridad exacta utilizada no es importante).
La independencia condicional tiene que ver con el hecho de que la probabilidad se factoriza:
$P(X_1, \ldots, X_n|\mu, \sigma^2) = P(X_1|\mu, \sigma^2)\ldots P(X_n|\mu, \sigma^2)$ .
Pero esto no es lo mismo que decir que la distribución marginal sobre los datos implícita en nuestro modelo se factoriza:
$P(X_1, \ldots, X_n) \neq P(X_1)\ldots P(X_n)$ .
Y, efectivamente, en nuestro caso concreto de la distribución normal, al obtener la distribución marginal sobre los datos integrando los parámetros se obtiene una distribución conjunta que es no independiente en general, cuya forma dependerá de los priors que haya especificado.
Es decir: dos observaciones $X_i$ y $X_j$ no son independientes; sólo son condicionalmente independientes dados los parámetros del modelo (en notación matemática, $X_i \perp \!\!\! \perp X_j | \mu, \sigma^2$ pero $X_i \not\perp \!\!\! \perp X_j$ ).
Una forma útil de pensar en lo que significa la independencia de dos variables aleatorias es que no proporcionan ninguna información la una sobre la otra. Sería completamente absurdo decir que dos puntos de datos no proporcionan ninguna información el uno sobre el otro: por supuesto, los datos están relacionados de alguna manera. Pero al hacer que los datos sean condicionalmente independientes dados unos parámetros, estamos diciendo que nuestro modelo codifica toda la relación entre los datos: que "no falta nada" en nuestro modelo.
Efectivamente, una suposición i.i.d. es una suposición de que nuestro modelo es correcto: si nos falta algo en nuestro modelo, los datos contendrán información sobre los demás más allá de lo que está codificado en nuestro modelo. Si sabemos qué es, debemos incluirlo en nuestro modelo y, a continuación, hacer una suposición i.i.d. Si no lo sabemos, no tenemos suerte. Pero que hayamos especificado mal el modelo es un riesgo constante e inevitable.
Y, por último, una breve nota: a primera vista, este marco que he descrito no parecería ajustarse a modelos como los espaciotemporales, en los que tenemos una dependencia explícita entre los datos codificada en el modelo. Sin embargo, en todos los casos de este tipo que conozco, el modelo puede reparametrizarse como uno con datos i.i.d. y variables latentes adicionales (posiblemente correlacionadas).