El marco bayesiano tiene una gran ventaja sobre el frecuentista porque no depende de tener una "bola de cristal" para conocer los supuestos distribucionales correctos que hay que hacer. Los métodos bayesianos dependen de la información de que se disponga y de cómo codificarla en una distribución de probabilidad.
Utilizar métodos bayesianos es básicamente utilizar la teoría de la probabilidad en toda su potencia. El teorema de Bayes no es más que una reformulación de la regla del producto clásica de la teoría de la probabilidad:
$$p(\theta x|I)=p(\theta|I)p(x|\theta I)=p(x|I)p(\theta|xI)$$
Mientras $p(x|I)\neq 0$ (es decir, la información previa no decía que lo observado fuera imposible) podemos dividir por ella, y llegar a la teorema de bayes. Yo he utilizado $I$ para denotar la información previa, que siempre está presente: no se puede asignar una distribución de probabilidad sin información.
Ahora bien, si piensas que el teorema de Bayes es sospechoso, entonces lógicamente, también debes pensar que la regla del producto también es sospechosa. Puedes encontrar un argumento deductivo aquí que deriva las reglas del producto y de la suma, similar al teorema de Cox. Se puede encontrar una lista más explícita de los supuestos necesarios aquí .
Que yo sepa, la inferencia frecuentista no se basa en un conjunto de fundamentos dentro de un marco lógico. Dado que utiliza los axiomas de probabilidad de Kolmogorov, no parece existir ninguna conexión entre la teoría de la probabilidad y la inferencia estadística. No existen axiomas para la inferencia frecuentista que conduzcan a un procedimiento que deba seguirse. Existen principios y métodos (máxima verosimilitud, intervalos de confianza, valores p, etc.), y funcionan bien, pero tienden a ser aislados y especializados para problemas concretos. Creo que es mejor dejar los métodos frecuentistas vagos en sus fundamentos, al menos en lo que se refiere a un marco lógico estricto.
Para el punto $1$ obtener el mismo resultado es algo irrelevante, desde el punto de vista de la interpretación. Dos procedimientos pueden conducir al mismo resultado, pero esto no tiene por qué significar que sean equivalentes. Si tuviera que adivinar $\theta$ y resulta que adivino la estimación de máxima verosimilitud (MLE), esto no significa que mi estimación sea tan buena como la MLE.
Para el punto $2$ ¿por qué debería preocuparle que personas con información diferente lleguen a conclusiones diferentes? Alguien con un doctorado en matemáticas llegaría, y debería llegar, a conclusiones diferentes a las de alguien con un nivel de matemáticas de bachillerato. Tienen distinta información, ¿por qué esperar que coincidan? Cuando a uno le presentan información conocida, tiende a cambiar de opinión. El grado de cambio depende del tipo de información. El teorema de Bayes contiene esta característica, como debe ser.
Utilizar una priorización uniforme suele ser una aproximación conveniente cuando la probabilidad es alta en comparación con la priorización. A veces no merece la pena el esfuerzo que supone establecer correctamente una probabilidad a priori. Del mismo modo, no cometa el error de confundir la estadística bayesiana con MCMC. MCMC no es más que un algoritmo de integración, igual que la cuadratura guasiana, y de una clase similar a la aproximación de Laplace. Es un poco más útil que quadratre porque puedes reutilizar la salida del algoritmo para hacer todas tus integrales (las medias y varianzas posteriores son integrales), y un poco más general que Laplace porque no necesitas una muestra grande, o un pico bien redondeado en la posterior (aunque Laplace es más rápido).