En pocas palabras, el argumento de Birnbaum es que dos principios ampliamente aceptados implican lógicamente que el principio de probabilidad debe ser válido. El contraargumento de Mayo es que la prueba es errónea porque Birnbaum utiliza mal uno de los principios.
A continuación simplifico los argumentos hasta el punto de que no son muy rigurosos. Mi propósito es hacerlos accesibles a un público más amplio porque los argumentos originales son muy técnicos. Los lectores interesados deben ver el detalle en los artículos enlazados en la pregunta y en los comentarios.
En aras de la concreción, me centraré en el caso de una moneda con sesgo desconocido $\theta$ . En el experimento $E_1$ lo volteamos 10 veces. En el experimento $E_2$ lo volteamos hasta obtener 3 "colas". En el experimento $E_{mix}$ lanzamos una moneda justa con las etiquetas "1" y "2" en cada cara: si sale un "1" realizamos $E_1$ si sale un "2" realizamos $E_2$ . Este ejemplo simplificará mucho la discusión y mostrará la lógica de los argumentos (las pruebas originales son, por supuesto, más generales).
Los principios:
Los dos principios siguientes son ampliamente aceptados:
El principio de condicionalidad débil dice que debemos sacar las mismas conclusiones si decidimos realizar el experimento $E_1$ o si decidimos realizar $E_{mix}$ y la moneda sale "1".
El principio de suficiencia dice que debemos sacar las mismas conclusiones en dos experimentos en los que una estadística suficiente tiene el mismo valor.
El siguiente principio es aceptado por los bayesianos pero no por los frecuentistas. Sin embargo, Birnbaum afirma que es una consecuencia lógica de los dos primeros.
El principio de probabilidad dice que deberíamos sacar las mismas conclusiones en dos experimentos en los que las funciones de probabilidad son proporcionales.
Teorema de Birnbaum:
Digamos que realizamos $E_1$ y obtenemos 7 "caras" de cada diez lanzamientos. La función de probabilidad de $\theta$ es ${10 \choose 3}\theta^7(1-\theta)^3$ . Realizamos $E_2$ y hay que lanzar la moneda 10 veces para obtener 3 "colas". La función de probabilidad de $\theta$ es ${9 \choose 7}\theta^7(1-\theta)^3$ . Las dos funciones de probabilidad son proporcionales.
Birnbaum considera la siguiente estadística sobre $E_{mix}$ de $\{1, 2\} \times \mathbb{N}^2$ a $\{1, 2\} \times \mathbb{N}^2$ : $$T: (\xi, x,y) \rightarrow (1, x,y),$$ donde $x$ y $y$ son los números de "cara" y "cruz", respectivamente. Así que no importa lo que pase, $T$ informa del resultado como si procediera de un experimento $E_1$ . Resulta que $T$ es suficiente para $\theta$ en $E_{mix}$ . El único caso que no es trivial es cuando $x = 7$ y $y = 3$ donde tenemos
$$P(X_{mix}=(1,x,y)|T=(1,x,y)) = \frac{0.5 \times {10 \choose 3}\theta^7(1-\theta)^3}{0.5 \times {10 \choose 3}\theta^7(1-\theta)^3 + 0.5 \times {9 \choose 7}\theta^7(1-\theta)^3}\\=\frac{{10 \choose 3}}{{10 \choose 3}+{9 \choose 7}}\text{, a value that is independent of } \theta.$$ Todos los demás casos son 0 o 1, excepto $P(X_{mix}=(2,x,y)|T=(1,x,y))$ que es el complemento de la probabilidad anterior. La distribución de $X_{mix}$ dado $T$ es independiente de $\theta$ Así que $T$ es una estadística suficiente para $\theta$ .
Ahora, según el principio de suficiencia, debemos concluir lo mismo para $(1,x,y)$ y $(2,x,y)$ en $E_{mix}$ y a partir del principio de condionalidad débil, debemos concluir lo mismo para $(x,y)$ en $E_1$ y $(1,x,y)$ en $E_{mix}$ así como para $(x,y)$ en $E_2$ y $(2,x,y)$ en $E_{mix}$ . Así que nuestra conclusión debe ser la misma en todos los casos, que es el principio de probabilidad.
La prueba de Mayo es a prueba de golpes:
El montaje de Birnbaum no es un experimento de mezcla porque el resultado de la moneda etiquetada como "1" y "2" no fue observado por lo que no se aplica el principio de condicionalidad débil a este caso .
Haz la prueba $\theta = 0.5$ frente a $\theta > 0.5$ y sacar una conclusión a partir del valor p de la prueba. Como observación preliminar, observe que el valor p de $(7,3)$ en $E_1$ viene dada por la distribución binomial como aproximadamente $0.1719$ el valor p de $(7,3)$ en $E_2$ viene dada por la distribución binomial negativa como aproximadamente $0.0898$ .
Aquí viene lo importante: el valor p de $T=(1,7,3)$ en $E_{mix}$ se da como la media de los dos -recuerda que no conocemos el estado de la moneda-. es decir aproximadamente $0.1309$ . Sin embargo, el valor p de $(1,7,3)$ en $E_{mix}$ -donde se observa la moneda- es la misma que en $E_1$ , es decir aproximadamente $0.1719$ . El principio de condicionalidad débil se mantiene (la conclusión es la misma en $E_1$ y en $E_{mix}$ donde la moneda sale "1") y sin embargo el principio de probabilidad no lo hace. El contraejemplo refuta el teorema de Birnbaum.
La refutación de Peña y Berger a la contraprueba de Mayo:
Mayo cambió implícitamente el enunciado del principio de suficiencia: interpreta "mismas conclusiones" como "mismo método". Tomar el valor p es un método de inferencia, pero no una conclusión. Esto es importante porque un agente puede llegar a conclusiones idénticas incluso cuando dos valores p son diferentes. Esto no se entiende en el sentido de que acepte la hipótesis nula si el valor p es 0,8 o 0,9, sino en el sentido de que los dos valores p de Mayo se calculan a partir de experimentos diferentes (espacios de probabilidad diferentes con resultados diferentes), por lo que con esta información a mano puede sacar la misma conclusión aunque los valores sean diferentes.
El principio de suficiencia dice que si existe una estadística suficiente, entonces las conclusiones deben ser las mismas, pero no requiere que se utilice la estadística suficiente en absoluto. Si lo hiciera, llevaría a una contradicción, como demuestra Mayo.