Obsérvese el comentario de Nate Eldredge sobre dos visiones diferentes de lo desconocido $\theta$ .
1) Si $\theta$ es una variable aleatoria, entonces se puede decir $\{X_1, ..., X_{100}\}$ son condicionalmente i.i.d. dado $\theta$ pero no son i.i.d. porque todos dependen de la variable aleatoria común $\theta$ . Esta es la visión "bayesiana" de $\theta$ .
2) Si $\theta$ es una constante fija (pero posiblemente desconocida) entonces sí se puede decir $\{X_1, ..., X_{100}\}$ son i.i.d. porque \begin {align} &P[X_1 \leq x_1, ..., X_{100} \leq x_{100}] \\ &= \prod_ {i=1}^{100}P[X_i \leq x_i] \quad \forall (x_1, ..., x_{100}) \in \mathbb {R}^{100} \quad (Ecuación 1) \end {align} Se puede demostrar que (Ec. 1) implica $$ E[h(X_{100})|X_1,...,X_{99}]=E[h(X_{100})] \quad (Eq. 2)$$ para todas las funciones (medibles) $h$ . Las ecuaciones (Ec. 1) y (Ec. 2) se mantienen independientemente de que el valor $\theta$ es conocido. En particular, las expresiones de (Ec. 1)-(Ec. 2) pueden depender de $\theta$ pero las expresiones existen (y los lados de la izquierda son iguales a los de la derecha) independientemente de que $\theta$ es conocido/desconocido por un observador.
Efectivamente, se pueden interpretar las ecuaciones (1)-(2) en el sentido de que "las variables no proporcionan ninguna información sobre las demás": Conociendo los resultados de $X_1, ..., X_{99}$ no cambia las probabilidades o expectativas que implican sólo $X_{100}$ . Por supuesto, esas probabilidades/expectativas son en sí mismas desconocidas si $\theta$ no se conoce. Así que en un "nivel superior" sí se puede decir que $X_1, ..., X_{99}$ da "información" sobre lo desconocido $\theta$ y, por tanto, "información" sobre $X_{100}$ . Por ejemplo, si observamos $X_{99}=207$ entonces sabemos que es posible que $X_{100}>200$ . Sin embargo, esto no cambia $P[X_{100}>200]$ porque la propia probabilidad depende de $\theta$ . Es difícil cuantificar lo que significa "información" sin adoptar el enfoque "bayesiano" de tratar lo desconocido $\theta$ como una variable aleatoria.
Por otro lado, hay algunas cosas interesantes que se pueden decir sobre $\theta$ cuando lo tratamos como una constante (no como una variable aleatoria), como el error cuadrático medio de aproximación $\theta/2$ : Si $\{X_i\}_{i=1}^{\infty}$ son i.i.d. uniformes sobre $[0,\theta]$ entonces $$ E\left[\left(\frac{\theta}{2} - \frac{1}{n}\sum_{i=1}^n X_i\right)^2\right] = \frac{Var(X_1)}{n} = \frac{\theta^2}{12 n}$$ Por supuesto, este límite depende de $\theta$ pero si de alguna manera sabemos que $\theta \leq 100$ entonces podemos decir que el error cuadrático medio no es más que $100^2/(12n)$ .
Este es un estimador de $\theta$ con un error cuadrático medio mejorado: Definir \begin {align} \hat { \theta }_n &= \frac {2}{n} \sum_ {i=1}^n X_i \\ \tilde { \theta }_n &= \max\left\ { \hat { \theta }_n, X_1, X_2, ..., X_n \right\ } \end {align} Se puede demostrar que (seguramente): $$ (\tilde{\theta}_n-\theta)^2 \leq (\hat{\theta}_n -\theta)^2$$ y así $$ E\left[\left(\tilde{\theta}_n-\theta\right)^2\right] \leq E\left[\left(\hat{\theta}_n-\theta\right)^2\right] = \frac{\theta^2}{3n}$$ Algunas notas útiles sobre otras mejoras están aquí:
http://www-stat.wharton.upenn.edu/~dsmall/stat512-s05/notas2.doc