14 votos

Modelo de logit bayesiano: ¿explicación intuitiva?

Debo confesar que yo antes no he oído hablar de ese término en alguna de mis clases, de pregrado o de posgrado.

¿Qué significa para una regresión logística para ser Bayesiana? Estoy en busca de una explicación con una transición de regular logística Bayesiana logística similar a la siguiente:

Esta es la ecuación del modelo de regresión lineal: $E(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$.

Esta es la ecuación del modelo de regresión logística: $\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$. Esto se hace cuando y es categórica.

Lo que hemos hecho es cambiar $E(y)$$\ln(\frac{E(y)}{1-E(y)})$.

Así que lo que se hace del modelo de regresión logística Bayesiana de regresión logística? Supongo que no es algo para hacer con la ecuación.

Este libro de previsualización parece definir, pero yo realmente no lo entiendo. ¿Qué es todo esto antes, la probabilidad de cosas? ¿Qué es $\alpha$? Puede alguien por favor explicar que parte del libro o Bayesiano del modelo logit de otra manera?

Nota: se ha preguntado antes pero no respondió muy bien, creo.

28voto

Dipstick Puntos 4869

La regresión logística puede ser descrito como una combinación lineal

$$ \eta = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k $$

that is passed through the link function $g$:

$$ g(E(Y)) = \eta $$

where the link function is a logit function

$$ E(Y|X,\beta) = p = \text{logit}^{-1}( \eta ) $$

where $Y$ take only values in $\{0,1\}$ and inverse logit functions transforms linear combination $\eta$ to this range. This is where classical logistic regression ends.

However if you recall that $E(Y) = P(Y = 1)$ for variables that take only values in $\{0,1\}$, than $E(Y | X,\beta)$ can be considered as $P(Y = 1 | X,\beta)$. In this case, the logit function output could be thought as conditional probability of "success", i.e. $P(Y=1|X,\beta)$. Bernoulli distribution is a distribution that describes probability of observing binary outcome, with some $p$ parameter, so we can describe $Y$ as

$$ y_i \sim \text{Bernoulli}(p) $$

So with logistic regression we look for some parameters $\beta$ that togeder with independent variables $X$ form a linear combination $\eta$. In classical regression $E(Y|X,\beta) = \eta$ (we assume link function to be identity function), however to model $Y$ that takes values in $\{0,1\}$ we need to transform $\eta$ so to fit in $[0,1]$ range.

Now, to estimate logistic regression in Bayesian way you pick up some priors for $\beta_i$ parameters as with linear regression (see Kruschke et al, 2012), then use logit function to transform the linear combination $\eta$, so to use its output as a $p$ parameter of Bernoulli distribution that describes your $Y$ variable. So, yes, you actually use the equation and the logit link function the same way as in frequentionist case, and the rest works (e.g. choosing priors) like with estimating linear regression the Bayesian way.

The simple approach for choosing priors is to choose Normal distributions (but you can also use other distributions, e.g. $t$- or Laplace distribution for more robust model) for $\beta_i$'s with parameters $\mu_i$ and $\sigma_i^2$ that are preset or taken from hierarchical priors. Now, having the model definition you can use software such as JAGS to perform Markov Chain Monte Carlo simulation for you to estimate the model. Below I post JAGS code for simple logistic model (check here for more examples).

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

As you can see, the code directly translates to model definition. What the software does is it draws some values from Normal priors for a and b, then it uses those values to estimate p and finally, uses likelihood function to assess how likely is your data given those parameters (this is when you use Bayes theorem, see here for more detailed description).

The basic logistic regression model can be extended to model the dependency between the predictors using a hierarchical model (including hyperpriors). In this case you can draw $\beta_i$'s from Multivariate Normal distribution that enables us to include information about covariance $\boldsymbol{\Sigma}$ between independent variables

$$ \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \sim \mathrm{MVN} \left( \begin{bmatrix} \mu_0 \\ \mu_1 \\ \vdots \\ \mu_k \end{bmatrix}, \begin{bmatrix} \sigma^2_0 & \sigma_{0,1} & \ldots & \sigma_{0,k} \\ \sigma_{1,0} & \sigma^2_1 & \ldots &\sigma_{1,k} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{k,0} & \sigma_{k,1} & \ldots & \sigma^2_k \end{bmatrix} \right)$$

...pero esto es entrar en detalles, así que vamos a dejar aquí.

El "Bayesiano" aquí es la elección de los priores, utilizando el teorema de Bayes y la definición del modelo en términos probabilísticos. Consulte aquí la definición de "modelo Bayesiano" y aquí por algún general de la intuición en el enfoque Bayesiano. Lo que también se puede observar es que la definición de los modelos es bastante sencillo y flexible con este enfoque.


Kruschke, J. K., Aguinis, H., & Joo, H. (2012). Ha llegado el momento: Bayesiano métodos para el análisis de datos en la organización de las ciencias. Organizacional Métodos De Investigación, 15(4), 722-752.

Gelman, A., Jakulin, A., Pittau, G. M., y Su, Y. S. (2008). Una débil informativo predeterminado antes de la distribución para la logística y otros modelos de regresión. Los Anales de la Estadística Aplicada, 2(4), 1360-1383.

6voto

Steve Puntos 477

¿Qué es todo esto antes, la probabilidad de cosas?

Que es lo que hace Bayesiano. El modelo generativo de los datos es el mismo; la diferencia es que un análisis Bayesiano escoge a algunos antes de la distribución de los parámetros de interés, y se calcula o se aproxima a una posterior distribución, en la que toda inferencia se basa. La regla de Bayes se refiere a los dos: La parte posterior es proporcional a la probabilidad de los tiempos de antes.

Intuitivamente, este estado permite a un analista matemáticamente para expresar los conocimientos sobre el tema o preexistentes resultados. Por ejemplo, el texto hace referencia a las notas que el estado de $\bf\beta$ es una normal multivariante. Tal vez los estudios anteriores sugieren un cierto rango de parámetros que pueden ser expresados con ciertos parámetros normales. (Con la flexibilidad viene de responsabilidad: Uno debe ser capaz de justificar sus previo a una audiencia escéptica.) En más elaborado modelos, uno puede utilizar la experiencia de dominio para afinar ciertos latente parámetros. Ver, por ejemplo, el hígado ejemplo se hace referencia en esta respuesta.

Algunos frecuentista modelos pueden estar relacionados con Bayesiana de la contraparte con una previa específica, aunque no estoy seguro de lo que corresponde en este caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X