22 votos

¿Cuál es la relación entre la distribución Beta y el modelo de regresión logística?

Mi pregunta es: ¿Cuál es la relación matemática entre el Distribución Beta y los coeficientes del modelo de regresión logística ?

Para ilustrar: la función logística (sigmoide) viene dada por

$$f(x) = \frac{1}{1+\exp(-x)}$$

y se utiliza para modelar las probabilidades en el modelo de regresión logística. Sea $A$ ser un dicotómico $(0,1)$ resultado puntuado y $X$ una matriz de diseño. El modelo de regresión logística viene dado por

$$P(A=1|X) = f(X \beta).$$

Nota $X$ tiene una primera columna de constante $1$ (intercepción) y $\beta$ es un vector columna de coeficientes de regresión. Por ejemplo, cuando tenemos un regresor (estándar-normal) $x$ y elija $\beta_0=1$ (intercepción) y $\beta_1=1$ podemos simular la "distribución de probabilidades" resultante.

Histogram of P(A=1|X)

Este gráfico recuerda a la distribución Beta (al igual que los gráficos para otras opciones de $\beta$ ) cuya densidad viene dada por

$$g(y;p,q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} y^{(p-1)} (1-y)^{(q-1)}.$$

Utilizando máxima verosimilitud o métodos de momentos es posible estimar $p$ y $q$ de la distribución de $P(A=1|X)$ . Por lo tanto, mi pregunta se reduce a: ¿cuál es la relación entre las opciones de $\beta$ y $p$ y $q$ ? Esto, para empezar, aborda el caso bivariante dado anteriormente.

20voto

Dipstick Puntos 4869

Beta es una distribución de valores en $(0,1)$ gama que es muy flexible en su forma, por lo que para casi cualquier distribución empírica unimodal de los valores en $(0,1)$ puede encontrar fácilmente los parámetros de dicha distribución beta que se "asemeja" a la forma de la distribución.

Observe que la regresión logística le proporciona probabilidades condicionales $\Pr(Y=1\mid X)$ mientras que en su parcela nos presenta el distribución marginal de las probabilidades previstas. Son dos cosas diferentes de las que hablar.

No existe una relación directa entre los parámetros de la regresión logística y los parámetros de la distribución beta cuando se observa la distribución de las predicciones del modelo de regresión logística. A continuación puede ver los datos simulados utilizando las distribuciones normal, exponencial y uniforme transformadas mediante la función logística. Además de utilizar exactamente los mismos parámetros de la regresión logística (es decir $\beta_0 = 0, \beta_1 = 1$ ), las distribuciones de las probabilidades previstas son muy diferentes. Por tanto, la distribución de las probabilidades predichas no sólo depende de los parámetros de la regresión logística, sino también de las distribuciones de $X$ y no hay una relación simple entre ellos.

Logistic function of data simulated under normal, exponential and uniform distributions

Dado que beta es una distribución de valores en $(0,1)$ entonces no puede utilizarse para modelar datos binarios como lo hace la regresión logística. Se puede utilizar para modelar probabilidades De este modo, utilizamos regresión beta (véase también aquí y aquí ). Así que si te interesa como se comportan las probabilidades (entendidas como variable aleatoria), puedes utilizar la regresión beta para tal fin.

5voto

Jeff Yates Puntos 162

La regresión logística es un caso especial de un Modelo Lineal Generalizado (MLG). En este caso particular de datos binarios, la función logística es la función de enlace canónico que transforma el problema de regresión no lineal en un problema lineal. Los MLG son algo especiales, en el sentido de que sólo se aplican a las distribuciones de la familia exponencial (como la distribución binomial).

En la estimación bayesiana, la distribución Beta es la previa conjugada de la distribución binomial, lo que significa que una actualización bayesiana de una previa Beta, con observaciones binomiales, dará lugar a una posterior Beta. Por lo tanto, si se tienen recuentos de observaciones de datos binarios, se puede obtener una estimación bayesiana analítica de los parámetros de la distribución binomial utilizando una previa Beta.

Así que, en la línea de lo dicho por otros, no creo que haya una relación directa, pero tanto la distribución Beta como la regresión logística tienen estrecha relación con la estimación de los parámetros de algo que sigue una distribución binomial.

4voto

George Hewitt Puntos 994

¿Quizás no hay una conexión directa? La distribución de $P(A=1|X)$ depende en gran medida de su simulación de $X$ . Si simula $X$ con $N(0,1)$ , $\exp(-X\beta)$ tendrá una distribución log-normal con $\mu=-1$ dado $\beta_0=\beta_1=1$ . La distribución de $P(A=1|X)$ puede entonces encontrarse explícitamente: con c.d.f. $$F(x)=1-\Phi\left[\ln\left(\frac{1}{x}-1\right)+1\right],$$ f.d.c. inverso $$Q(x)=\frac{1}{1+\exp(\Phi^{-1}(1-x)-1)},$$ y p.d.f. $$f(x)=\frac{1}{x(1 - x)\sqrt{2\pi}}\exp\left(-\frac{(\ln(1/x-1)+1)^2}{2}\right),$$ que no se parecen a las de la distribución Beta.

Puede comprobar los resultados indicados anteriormente en R :

n = 100000

X = cbind(rep(1, n), rnorm(n)) # simulate design matrix
Y = 1 / (exp(-X %*% c(1,1)) + 1) # P(A=1|X)

Z1 = 1 / (rlnorm(n, -1, 1) + 1) # simulate from lognormal directly
Z2 = 1 / (1 + exp(qnorm(runif(n)) - 1)) # simulate with inverse CDF

# Kolmogorov–Smirnov test
ks.test(Y, Z1)
ks.test(Y, Z2)

# plot fitted density
new.pdf = function(x) {
  1 / (x * (1 - x) * sqrt(2 * pi)) * exp(-0.5 * (log(1 / x - 1) + 1)^2)
}
hist(Y, breaks = "FD", probability = T)
curve(new.pdf, col = 4, add = T)

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X