La cuestión puede caracterizarse como una confusión de la probabilidad a priori y a posteriori o tal vez como la insatisfacción de no conocer la distribución conjunta de ciertas variables aleatorias.
Acondicionamiento
Como ejemplo introductorio, consideramos un modelo para el experimento de sacar, sin reemplazo, dos bolas de una urna con $n$ bolas numeradas de $1$ a $n$ . La forma típica de modelar este experimento es con dos variables aleatorias $X$ et $Y$ , donde $X$ es el número de la primera bola y $Y$ es el número de la segunda bola, y con la distribución conjunta $P(X=x \land Y=y) = 1/(n(n-1))$ para todos $x,y \in N := \{1,\dots,n\}$ con $x \neq y$ . De este modo, todos los resultados posibles tienen la misma probabilidad positiva, y los resultados imposibles (por ejemplo, sacar la misma bola dos veces) tienen probabilidad cero. De ello se desprende que $P(X=x)=1/n$ et $P(Y=x)=1/n$ para todos $x \in N$ .
Que se realice el experimento y se nos revele la segunda bola, mientras que la primera bola se mantiene en secreto. Denotemos $t$ el número de la segunda bola. Entonces, todavía, $P(X=x)=1/n$ para todos $x \in N$ . Sin embargo, para cada $x \in N$ , nuestro grado de creencia que el evento $X=x$ ha sucedido, debe ser ahora $P(X=x \vert Y=t) = P(X=x \land Y=t) / P(Y=t)$ , que en el caso de $x \neq t$ es $1/(n-1)$ , y en caso de $x = t$ Es decir, es $0$ . Esta es la probabilidad de $X=x$ condicionada a la información que $Y=t$ que ha sucedido, también llamada la probabilidad posterior de $X=x$ , es decir, la probabilidad actualizada de $X=x$ después de obtener las pruebas que $Y=t$ sucedió. Sigue siendo $P(X=x)=P(Y=x)=1/n$ para todos $x \in N$ , son las probabilidades a priori.
No condicionar a las pruebas significa ignorarlas. Sin embargo, sólo podemos condicionar lo que es expresable en el modelo probabilístico. En nuestro ejemplo con las dos bolas de la urna no podemos condicionar sobre el tiempo o sobre cómo nos sentimos hoy. En el caso de que tengamos razones para creer que eso es una evidencia relevante para el experimento, debemos cambiar nuestro modelo primero para permitirnos expresar esta evidencia como eventos formales.
Dejemos que $C$ sea la variable aleatoria indicadora que dice si la primera bola tiene un número menor que la segunda bola, es decir $C = 1 \Longleftrightarrow X < Y$ . Entonces $P(C=1) = 1/2$ . De nuevo $t$ sea el número de la segunda bola, que se nos revela, pero el número de la primera bola es secreto. Entonces es fácil ver que $P(C=1 \vert Y=t) = (t-1) / (n-1)$ . En particular $P(C=1 \vert Y=1) = 0$ , lo que en nuestro modelo significa que $C=1$ ciertamente no ha sucedido. Además, $P(C=1 \vert Y=n) = 1$ , lo que en nuestro modelo significa que $C=1$ ciertamente ha sucedido. Sigue siendo $P(C=1) = 1/2$ .
Intervalo de confianza
Dejemos que $X = (X_1, \dots, X_n)$ sea un vector de $n$ variables aleatorias i.i.d. Sea $(l,u)$ sea un estimador de intervalo de confianza (CIE) con nivel de confianza $\gamma$ para un parámetro real de la distribución de las variables aleatorias en $X$ , es decir, $l$ et $u$ son funciones de valor real con dominio $\mathbb{R}^n$ , de manera que si $\theta \in \mathbb{R}$ es el valor real del parámetro, entonces $P(l(X) \leq \theta \leq u(X)) \geq \gamma$ .
Dejemos que $C$ sea la variable aleatoria indicadora que dice si $(l,u)$ determinó el parámetro correcto, es decir, $C = 1 \Longleftrightarrow l(X) \leq \theta \leq u(X)$ . Entonces $P(C=1) \geq \gamma$ .
Recojamos los datos para tener valores $x = (x_1,\dots,x_n) \in \mathbb{R}^n$ , donde $x_i$ es la realización de $X_i$ para todos $i$ . Entonces nuestro grado de creencia que el evento $C=1$ sucedido debe ser $\delta := P(C=1 \vert X = x)$ . En general, no podemos calcular esta probabilidad condicional, pero sabemos que es $0$ o $1$ , ya que $(C = 1 \land X = x) \Longleftrightarrow ((l(x) \leq \theta \leq u(x)) \land X = x)$ . Si $l(x) \leq \theta \leq u(x)$ es falsa, entonces esta última afirmación es falsa, y por lo tanto $\delta=0$ . Si $l(x) \leq \theta \leq u(x)$ es verdadera, entonces esta última afirmación es equivalente a $X=x$ y por lo tanto $\delta=1$ . Si sólo conocemos los valores $l(x)$ et $u(x)$ y no los datos $x$ , todavía podemos argumentar de manera similar que $\delta \in \{0,1\}$ .
Sigue siendo $P(C=1) \geq \gamma$ . Si, para nuestro grado de creencia que $C=1$ que ha sucedido, nos gusta más esta probabilidad previa, entonces debemos ignorar $x$ y esto también significa ignorar el intervalo de confianza $[l(x),u(x)]$ . Diciendo que $[l(x),u(x)]$ contenido $\theta$ con una probabilidad de al menos $\gamma$ , significaría reconocer esta evidencia y al mismo tiempo ignorarla.
Aprender más, saber menos
Lo que hace que esta situación sea tan difícil de entender puede ser el hecho de que que no podemos calcular la probabilidad condicional $\delta$ . Pero esto no es particular de la situación del CIE, sino que puede ocurrir siempre que tengamos información insuficiente sobre la distribución conjunta de las variables aleatorias. Como ejemplo, pongamos $X$ et $Y$ sean variables aleatorias discretas y que sus distribuciones marginales estén dadas, es decir, para cada $x \in \mathbb{R}$ Sabemos que $P(X=x)$ et $P(Y=x)$ . Esto no nos da su distribución conjunta, es decir no sabemos $P(X=x \land Y=y)$ para cualquier $x,y \in \mathbb{R}$ . Supongamos que un resultado de este experimento debe ser reportado como el valor del vector aleatorio $(X,Y)$ , es decir, los resultados deben presentarse como pares de números reales.
Realicemos el experimento subyacente y supongamos que aprendemos que $Y=7$ que ha sucedido, mientras que el valor de $X$ es todavía desconocido para nosotros. Esto no cambia $P(X=x)$ para cualquier $x$ . Sin embargo, sería problemático decir que el resultado del experimento fue de la forma $(x,7)$ , donde $x \in \mathbb{R}$ , y que la probabilidad para cada número real particular $x$ por ser el primer componente de este par fue $P(X=x)$ . Es problemático ya que de esta manera, reconoceríamos la evidencia $Y=7$ y, al mismo tiempo, ignorarla. Reconocemos la evidencia $Y=7$ informando que el segundo componente del par es $7$ . Lo ignoramos utilizando la probabilidad a priori $P(X=x)$ donde de hecho nuestro grado de creencia para $X=x$ debe ser ahora $P(X=x \vert Y=7) = P(X=x \land Y=7) / P(Y=7)$ que lamentablemente no podemos calcular.
Puede ser insatisfactorio que en cierto sentido, saber más sobre $Y$ nos obliga a decir menos sobre $X$ . Pero hasta donde yo sé, las cosas son así.