El modelo de regresión lineal simple
$$ y_i = \alpha + \beta x_i + \varepsilon $$
puede ser escrito en términos del modelo probabilístico que lo respalda
$$ \mu_i = \alpha + \beta x_i \\ y_i \sim \mathcal{N}(\mu_i, \sigma) $$
es decir la variable dependiente $Y$ sigue una distribución normal parametrizada por la media $\mu_i$, que es una función lineal de $X$ parametrizada por $\alpha,\beta$, y por la desviación estándar $\sigma$. Si estimas un modelo así utilizando mínimos cuadrados ordinarios, no necesitas preocuparte por la formulación probabilística, porque estás buscando los valores óptimos de los parámetros $\alpha,\beta$ minimizando los errores cuadrados entre los valores ajustados y los valores predichos. Por otro lado, podrías estimar dicho modelo utilizando estimación de máxima verosimilitud, donde buscarías los valores óptimos de los parámetros maximizando la función de verosimilitud
$$ \DeclareMathOperator*{\argmax}{arg\,max} \argmax_{\alpha,\,\beta,\,\sigma} \prod_{i=1}^n \mathcal{N}(y_i; \alpha + \beta x_i, \sigma) $$
donde $\mathcal{N}$ es una función de densidad de la distribución normal evaluada en los puntos de $y_i$, parametrizada por las medias $\alpha + \beta x_i$ y la desviación estándar $\sigma$.
En el enfoque bayesiano en lugar de maximizar la función de verosimilitud sola, asumiríamos distribuciones previas para los parámetros y usaríamos el teorema de Bayes
$$ \text{posterior} \propto \text{likelihood} \times \text{prior} $$
La función de verosimilitud es la misma que arriba, pero lo que cambia es que asumes algunas distribuciones previas para los parámetros estimados $\alpha,\beta,\sigma$ y las incluyes en la ecuación
$$ \underbrace{f(\alpha,\beta,\sigma\mid Y,X)}_{\text{posterior}} \propto \underbrace{\prod_{i=1}^n \mathcal{N}(y_i\mid \alpha + \beta x_i, \sigma)}_{\text{likelihood}} \; \underbrace{f_{\alpha}(\alpha) \, f_{\beta}(\beta) \, f_{\sigma}(\sigma)}_{\text{priors}} $$
"¿Qué distribuciones?" es una pregunta diferente, ya que hay un número ilimitado de opciones. Para los parámetros $\alpha,\beta$ podrías, por ejemplo, asumir distribuciones normales parametrizadas por algunos hiperparámetros, o una distribución $t$ si deseas asumir colas más pesadas, o una distribución uniforme si no deseas hacer demasiadas suposiciones, pero quieres asumir que los parámetros pueden ser "cualquier cosa en un rango dado" a priori, etc. Para $\sigma$ necesitas asumir alguna distribución prior que esté limitada a ser mayor que cero, ya que la desviación estándar debe ser positiva. Esto puede llevar a la formulación del modelo como se ilustra a continuación por John K. Kruschke.
![Formulación del modelo de regresión lineal bayesiana. Los parámetros beta tienen priors normales, sigma tiene una prior uniforme, y se utiliza una verosimilitud normal.]()
(fuente: http://www.indiana.edu/~kruschke/BMLR/)
Mientras que en la máxima verosimilitud estabas buscando un único valor óptimo para cada uno de los parámetros, en el enfoque bayesiano aplicando el teorema de Bayes obtienes la distribución posterior de los parámetros. La estimación final dependerá de la información que proviene de tus datos y de tus priors, pero cuanta más información contenga tus datos, menos influyentes son los priors.
Observa que al usar priors uniformes, toman la forma $f(\theta) \propto 1$ después de eliminar las constantes de normalización. Esto hace que el teorema de Bayes sea proporcional solo a la función de verosimilitud, por lo que la distribución posterior alcanzará su máximo exactamente en el mismo punto que la estimación de máxima verosimilitud. Por lo tanto, la estimación bajo priors uniformes será la misma que al utilizar mínimos cuadrados ordinarios ya que minimizar los errores cuadrados corresponde a maximizar la verosimilitud normal.
Para estimar un modelo en el enfoque bayesiano en algunos casos puedes usar priors conjugados, por lo que la distribución posterior está directamente disponible (ver ejemplo aquí). Sin embargo, en la gran mayoría de los casos, la distribución posterior no estará directamente disponible y tendrás que usar métodos de Monte Carlo de cadena de Markov para estimar el modelo (consulta este ejemplo de cómo usar el algoritmo Metropolis-Hastings para estimar parámetros de regresión lineal). Finalmente, si solo estás interesado en estimaciones puntuales de los parámetros, podrías usar estimación del máximo a posteriori, es decir
$$ \argmax_{\alpha,\,\beta,\,\sigma} f(\alpha,\beta,\sigma\mid Y,X) $$
Para una descripción más detallada de la regresión logística, puedes consultar el hilo Modelo de logit bayesiano: ¿explicación intuitiva?.
Para aprender más, puedes consultar los siguientes libros:
Kruschke, J. (2014). Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan. Academic Press.
Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2004). Bayesian data analysis. Chapman & Hall/CRC.