La Wikipedia la página que has proporcionado no realmente uso el término "variación de estabilización de la transformación". El término "variación de estabilización de la transformación" se utiliza generalmente para indicar transformaciones que hacen que la varianza de la variable aleatoria constante. Aunque en el caso de Bernoulli, esto es lo que está sucediendo con el proceso de transformación, que no es exactamente lo que el objetivo es. El objetivo es conseguir una distribución uniforme, y no sólo una variación de estabilización.
Recordemos que uno de los principales propósitos del uso de Jeffreys antes es que es invariante bajo la transformación. Esto significa que si vuelve a la parametrización de las variables, el estado no va a cambiar.
1.
El Jeffreys antes en este Bernoulli caso, como usted ha señalado, es una Beta$(1/2, 1/2)$.
$$p_{\gamma}(\gamma) \propto \dfrac{1}{\sqrt{\gamma(1-\gamma)}}.$$
Reparametrizing con $\gamma = \sin^2(\theta)$, podemos encontrar la distribución de $\theta$. En primer lugar vamos a ver que $\theta = \arcsin(\sqrt{\gamma})$, y desde $0 < \gamma < 1$, $0 < \theta < \pi/2$. Recordemos que $\sin^2(x) + \cos^2(x) = 1$.
\begin{align*}
F_{\theta}(x) & = P(\theta < x)\\
& = P(\sin^2(\theta) < \sin^2(x))\\
& = P(\gamma < \sin^2(x))\\
& = F_{\gamma}(\sin^2(x))\\
f_{\theta}(x) & = \dfrac{d F_{\gamma}(\sin^2(x)}{d x}\\
& = 2\sin(x)\cos(x)\,p_{\gamma}(\sin^2(x))\\
& \propto \sin(x)\cos(x) \dfrac{1}{\sqrt{\sin^2(x)(1 - \sin^2(x))}}\\
& =1.
\end{align*}
Por lo tanto $\theta$ es la distribución uniforme en $(0, \pi/2)$. Esta es la razón por la $\sin^2(\theta)$ transformación se utiliza, por lo que la re-configuración de parámetros conduce a una distribución uniforme. La distribución uniforme es ahora el Jeffreys antes en $\theta$ (desde Jeffreys antes es invariante bajo la transformación). Esto responde a su primera pregunta.
2.
A menudo en el análisis Bayesiano se quiere un uniforme antes cuando no hay suficiente información o conocimiento previo acerca de la distribución del parámetro. Tal antes de también se llama una "difusa antes de" o "por defecto antes". La idea es no cometer para cualquier valor del parámetro espacio de más de otros valores. En tal caso, la parte posterior es completamente dependiente de los datos de probabilidad. Desde entonces,
$$q(\theta|x) \propto f(x|\theta) f(\theta) \propto f(x|\theta).$$
Si la transformación es tal que la transforman el espacio es acotado, (como $(0, \pi/2)$ en este ejemplo), entonces la distribución uniforme será la correcta. Si el transformado el espacio es ilimitado, entonces el uniforme antes va a ser incorrecta, pero a menudo el resultado posterior será la correcta. Aunque, uno debe siempre verificar que este es el caso.