Dejemos que $\phi = \log (\sigma) = \tfrac{1}{2} \log (\sigma^2)$ para que tengas la transformación inversa $\sigma^2 = \exp (2\phi)$ . Ahora aplicamos el regla estándar para las transformaciones de las variables aleatorias para conseguirlo:
$$p(\sigma^2) = p(\phi) \cdot \Bigg| \frac{d \phi}{d\sigma^2} \Bigg| \propto 1 \cdot \frac{1}{2\sigma^2} \propto (\sigma^2)^{-1}.$$
Como los parámetros son independientes en esta previa, tenemos entonces:
$$p(\mu, \sigma^2) = p(\mu) p(\sigma^2) \propto (\sigma^2)^{-1}.$$
Esto da la forma establecida para la densidad previa impropia. En cuanto a la justificación de por qué esta previa es sensata, hay varias vías de recurso. La justificación más sencilla es que queremos tomar $\mu$ y $\log \sigma$ que sea uniforme para representar la "ignorancia" sobre estos parámetros. Tomar el logaritmo de la varianza es una transformación que asegura que nuestras creencias sobre ese parámetro son invariante de escala . (En otras palabras, nos gustaría que nuestra representación de la ignorancia de los dos parámetros fuera invariable ante cambios arbitrarios en la escala de medición de las variables.
Para la derivación anterior, hemos utilizado una prioridad uniforme impropia en el parámetro de la log-varianza. Es posible obtener el mismo resultado en un sentido limitante, utilizando una priorización adecuada para la escala logarítmica que tiende a la uniformidad, y encontrando la priorización adecuada para la varianza que corresponde a esto, y luego tomando el límite para obtener la actual priorización de la varianza impropia. En realidad, esto es sólo un reflejo del hecho de que las prioridades impropias pueden interpretarse generalmente como límites de las prioridades apropiadas.
Hay muchas otras justificaciones posibles para este previo impropio, y éstas apelan a la teoría de la representación de la "ignorancia" previa. Existe una amplia literatura sobre este tema, pero se puede encontrar una discusión más breve en Ironía y Singpurwalla (1997) (discusión con José Bernardo) que habla de los distintos métodos con los que se intenta representar la "ignorancia". La prioridad impropia con la que estás tratando aquí es la versión limitante de la prioridad conjugada para el modelo normal, con la varianza previa para cada parámetro llevada a infinito.