A mí también me sedujeron tanto el bootstrapping como el teorema de Bayes, pero no pude encontrar mucho sentido a las justificaciones del bootstrapping hasta que lo analicé desde una perspectiva bayesiana. Entonces -como explico a continuación- la distribución del bootstrap puede verse como una distribución posterior bayesiana, lo que hace que la (¿?) justificación del bootstrapping sea obvia, y también tuvo la ventaja de aclarar los supuestos realizados. Hay más detalles del argumento a continuación, y los supuestos realizados, en https://arxiv.org/abs/1803.06214 (páginas 22-26).
Como ejemplo, que se establece en la hoja de cálculo en http://woodm.myweb.port.ac.uk/SL/resample.xlsx (haga clic en la pestaña bootstrap en la parte inferior de la pantalla), supongamos que tenemos una muestra de 9 medidas con una media de 60. Cuando utilicé la hoja de cálculo para producir 1000 remuestreos con reemplazo a partir de esta muestra y redondeé las medias al número par más cercano, 82 de estas medias eran 54. La idea del bootstrapping es que utilizamos la muestra como una población "ficticia" para ver la probabilidad de que las medias de las muestras de 9 sean variables, por lo que esto sugiere que la probabilidad de que la media de una muestra esté 6 por debajo de la media de la población (en este caso la población ficticia basada en la muestra con una media de 60) es del 8,2%. Y podemos llegar a una conclusión similar sobre las otras barras del histograma de remuestreo.
Ahora imaginemos que la verdad es que la media de la población real es de 66. Si esto es así, nuestra estimación de la probabilidad de que la media de la muestra sea el 60 (es decir, el Dato) es del 8,2% (utilizando la conclusión del párrafo anterior y recordando que el 60 está 6 por debajo de la media poblacional hipotetizada de 66). Escribamos esto como
P(Datos dados Media=66) = 8.2%
y esta probabilidad corresponde a un valor x de 54 en la distribución del remuestreo. El mismo tipo de argumento se aplica a cada una de las posibles medias poblacionales de 0, 2, 4 ... 100. En cada caso, la probabilidad procede de la distribución de remuestreo, pero esta distribución se refleja en la media de 60.
Ahora apliquemos el teorema de Bayes. La medida en cuestión sólo puede tomar valores entre 0 y 100, por lo que, redondeando al número par más cercano, las posibilidades para la media de la población son 0, 2, 4, 6, ....100. Si suponemos que la distribución a priori es plana, cada una de ellas tiene una probabilidad a priori del 2% (a 1 dp), y el teorema de Bayes nos dice que
P(PopMean=66 dado Datos)= 8,2%*2%/P(Datos)
donde
P(Datos) = P(PopMean=0 dados Datos)*2%+ P(PopMean=2 dados Datos)*2% + ... + P(PopMean=100 dados los Datos)*2%
Ahora podemos cancelar el 2% y recordar que la suma de las probabilidades debe ser 1 ya que las probabilidades son simplemente las de la distribución de remuestreo. Lo que nos deja la conclusión de que
P(PopMean=66)=8.2%
Recordando que el 8,2% es la probabilidad de la distribución de remuestreo correspondiente a 54 (en lugar de 66), la distribución posterior es simplemente la distribución de remuestreo reflejada sobre la media de la muestra (60). Además, si la distribución del remuestreo es simétrica en el sentido de que las asimetrías son aleatorias -como ocurre en este y muchos otros casos-, podemos tomar la distribución del remuestreo como idéntica a la distribución de probabilidad posterior.
Este argumento hace varias suposiciones, la principal es que la distribución a priori es uniforme. Estos se explican con más detalle en el artículo citado anteriormente.