Aparte del sombrero sobre el $\sigma$ en primera instancia, son ejemplos de una fórmula común. En ambos casos hay una raíz cuadrada de una fracción; el numerador es una varianza $\sigma^2$ o su valor estimado $\hat \sigma^2;$ y el denominador -como resulta- puede entenderse como la longitud al cuadrado de un vector de valores explicativos en el tipo más simple de modelo de regresión. Compare las igualdades rojas en las dos ecuaciones resaltadas a continuación.
Considere el modelo $$y_i = \beta x_i + \varepsilon_i\tag{1}$$ donde $\beta$ debe estimarse a partir de los datos $(x_i,y_i)$ y el $\varepsilon_i$ se suponen variables aleatorias de media cero no correlacionadas, todas ellas de varianza $\sigma^2$ (que no se conoce). La estimación por mínimos cuadrados ordinarios es
$$\hat \beta = \frac{\sum_i x_i y_i}{\sum_i x_i x_i} = \frac{\sum_i x_i y_i}{|x|^2}$$
(utilizando una notación vectorial simplificada para la suma de los cuadrados del $x_i$ en el denominador, que podemos interpretar como la longitud euclidiana al cuadrado del vector $(x_i)$ ). Porque
$$\operatorname{Var}(y_i) = \operatorname{Var}(\beta x_i + \varepsilon_i) = \operatorname{Var}(\varepsilon_i) = \sigma^2$$
y las covarianzas de los distintos $y_i$ y $y_j$ son cero, calcula que
$$\operatorname{Var}(\hat\beta) = \operatorname{Var}\left(\frac{\sum_i x_i y_i}{\sum_i x_i x_i}\right) = \sum_i \left(\frac{x_i}{|x|^2}\right)^2 \sigma^2 = \frac{|x|^2}{\left(|x|^2\right)^2}\sigma^2 = \frac{\sigma^2}{|x|^2}.\tag{2}$$
En el caso especial donde $x_i=1$ para todos $i,$ $|x|^2 = \sum_i 1^2 = n$ y el modelo es
$$y_i = \beta + \varepsilon_i$$
con
$$\hat \beta = \frac{\sum_i (1)y_i}{|x|^2} = \frac{\sum_i y_i}{n} = \bar y,$$
de donde
$$\operatorname{Var}(\bar y) = \color{red}{\operatorname{Var}(\hat\beta) = \frac{\sigma^2}{|x|^2}} = \frac{\sigma^2}{n}.$$
Tomando las raíces cuadradas se obtiene la segunda fórmula de la pregunta. Tenga en cuenta el origen del denominador $n:$ es la longitud al cuadrado del vector de variables explicativas $(x_i = 1).$
La primera fórmula surge ajustando el modelo
$$y_i = \alpha + \beta x_i + \varepsilon_i = \alpha z_i + \beta x_i + \varepsilon_i$$
(donde $z_i=1$ para todos $i$ ) en dos pasos. En el primer paso, ambos $y$ y $x$ son aptos para $z$ utilizando el modelo simple $(1)$ y luego se sustituyen por sus residuos. (Véase https://stats.stackexchange.com/a/46508/919 y https://stats.stackexchange.com/a/113207/919 para la justificación y las explicaciones de este paso fundamental, que se llama "controlar" o "sacar el efecto de" la variable $z.$ )
En otras palabras, $y_i$ se sustituye por $y_{\cdot i}=y_i - \bar y$ y $x_i$ se sustituye por $x_{\cdot i}=x_i - \bar x.$ Porque esto elimina todos los efectos discernibles de $z,$ $\alpha$ ya no es necesario y nos queda ajustar el modelo
$$y_{\cdot i} = y_i - \bar y = \beta (x_i - \bar x) + \varepsilon_i =\beta x_{\cdot i} + \varepsilon_i.$$
Esto también es en forma de modelo $(1).$ Fórmula $(2)$ declara
$$\color{red}{\operatorname{Var}(\hat \beta) = \frac{\sigma^2}{|x_\cdot|^2}} = \frac{\sigma^2}{\sum_i \left(x_i - \bar x\right)^2}.$$
Tomando las raíces cuadradas se obtiene la primera fórmula de la pregunta, excepto que aquí estamos usando $\sigma$ en lugar de $\hat \sigma.$
Esto nos lleva a la última cuestión no resuelta: cuando se sabe (o se asume el valor de) $\sigma,$ no queda nada por hacer: tenemos nuestros errores estándar de estimación. Pero cuando no se sabe $\sigma,$ lo único que se puede hacer (salvo una regresión infinita en la que se intente estimar el error estándar de $\hat \sigma$ y así sucesivamente) es reemplazar la ocurrencia de $\sigma^2$ en la fórmula $(2)$ por su estimación $\hat\sigma^2.$