19 votos

¿Tiene sentido utilizar la regresión Logística con el resultado binario y predictor?

Tengo un resultado binario variable {0,1} y un predictor de la variable {0,1}. Mis pensamientos son que no tiene sentido hacer la logística, a menos que yo se incluyen otras variables y calcular el odds ratio.

Con un binario predictor, no de cálculo de probabilidad suficiente vs odds ratio?

26voto

Paulius Puntos 369

En este caso, el colapso de sus datos a $$ \begin{array}{c|cc} X \backslash Y & 0 & 1 \\ \hline 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array} $$ donde $S_{ij}$ es el número de instancias para $x = i$$y =j$$i,j \in \{0,1\}$. Supongamos que hay $n$ observaciones total.

Si queremos ajustar el modelo a $p_i = g^{-1}(x_i^T \beta) = g^{-1}(\beta_0 + \beta_1 1_{x_i = 1})$ (donde $g$ es nuestra función de enlace) nos vamos a encontrar a ese $\hat \beta_0$ es el logit de la proporción de éxitos al $x_i = 0$ $\hat \beta_0 + \hat \beta_1$ es el logit de la proporción de éxitos al $x_i = 1$. En otras palabras, $$ \hat \beta_0 = g\left(\frac{S_{01}}{S_{00} + S_{01}}\right) $$ y $$ \hat \beta_0 + \hat \beta_1 = g\left(\frac{S_{11}}{S_{10} + S_{11}}\right). $$

Let's check this is R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

So the logistic regression coefficients are exactly transformations of proportions coming from the table.

The upshot is that we certainly can analyze this dataset with a logistic regression if we have data coming from a series of Bernoulli random variables, but it turns out to be no different than directly analyzing the resulting contingency table.


I want to comment on why this works from a theoretical perspective. When we're fitting a logistic regression, we are using the model that $Y_i | x_i \stackrel{\asesino}{\sim} \text{Berna}(p_i)$. We then decide to model the mean as a transformation of a linear predictor in $x_i$, or in symbols $p_i = g^{-1}\left( \beta_0 + \beta_1 x_i\right)$. In our case we only have two unique values of $x_i$, and therefore there are only two unique values of $p_i$, say $p_0$ and $p_1$. A causa de nuestra independencia hipótesis nos han $$ \sum \limits_{i : x_i = 0} Y_i = S_{01} \sim \text{Bin} \left(n_0, p_0\right) $$ y $$ \sum \limits_{i : x_i = 1} Y_i = S_{11} \sim \text{Bin} \left(n_1, p_1\right). $$ Nota cómo estamos usando el hecho de que el $x_i$, y en vez de $n_0$$n_1$, no aleatorio: si este no era el caso, entonces estos no necesariamente se binomial.

Esto significa que $$ S_{01} / n_0 = \frac{S_{01}}{S_{00} + S_{01}} \to_p p_0 \hspace{2 mm} \text{ y } \hspace{2 mm} S_{11} / n_1 = \frac{S_{11}}{S_{10} + S_{11}} \to_p p_1. $$

The key insight here: our Bernoulli RVs are $Y_i | x_i = j \sim \text{Berna}(p_j)$ while our binomial RVs are $S_{j1} \sim \text{Bin}(n_j, p_j)$, pero ambos tienen la misma probabilidad de éxito. Esa es la razón por la que estas tablas de contingencia proporciones son la estimación de la misma cosa como una observación a nivel de la regresión logística. No se trata de alguna coincidencia con la tabla: es una consecuencia directa de la distribución de la hipótesis que nos han hecho.

1voto

horaceT Puntos 170

Cuando usted tiene más de uno de los predictores y todos los predictores son variables binarias, usted podría ajustar un modelo usando la Lógica de Regresión [1] (nota de la "Lógica" no "Logística"). Es útil cuando usted cree que los efectos de la interacción entre los predictores son prominentes. Hay una aplicación en R (LogicReg paquete).

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). La lógica de regresión. Diario de cálculo y gráficas Estadísticas, 12(3), 475-511.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X