¿Tiene sentido utilizar la regresión Logística con el resultado binario y predictor?

Question

¿Tiene sentido utilizar la regresión Logística con el resultado binario y predictor?

Preguntado el 13 de Marzo, 2018: Cuando se hizo la pregunta
941 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo un resultado binario variable {0,1} y un predictor de la variable {0,1}. Mis pensamientos son que no tiene sentido hacer la logística, a menos que yo se incluyen otras variables y calcular el odds ratio.

Con un binario predictor, no de cálculo de probabilidad suficiente vs odds ratio?

Preguntado el 13 de Marzo, 2018 por surykatka

Answer 1

2 Respuestas

Answer 2

26voto

Paulius Puntos 369

En este caso, el colapso de sus datos a $\begin{array}{c|cc} X \backslash Y & 0 & 1 \\ \hline 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}$ donde $S_{ij}$ es el número de instancias para $x = i$ $y =j$ $i,j \in \{0,1\}$ . Supongamos que hay $n$ observaciones total.

Si queremos ajustar el modelo a $p_i = g^{-1}(x_i^T \beta) = g^{-1}(\beta_0 + \beta_1 1_{x_i = 1})$ (donde $g$ es nuestra función de enlace) nos vamos a encontrar a ese $\hat \beta_0$ es el logit de la proporción de éxitos al $x_i = 0$ $\hat \beta_0 + \hat \beta_1$ es el logit de la proporción de éxitos al $x_i = 1$ . En otras palabras, $\hat \beta_0 = g\left(\frac{S_{01}}{S_{00} + S_{01}}\right)$ y $\hat \beta_0 + \hat \beta_1 = g\left(\frac{S_{11}}{S_{10} + S_{11}}\right).$

Let's check this is R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

So the logistic regression coefficients are exactly transformations of proportions coming from the table.

The upshot is that we certainly can analyze this dataset with a logistic regression if we have data coming from a series of Bernoulli random variables, but it turns out to be no different than directly analyzing the resulting contingency table.

I want to comment on why this works from a theoretical perspective. When we're fitting a logistic regression, we are using the model that $Y_i | x_i \stackrel{\asesino}{\sim} \text{Berna}(p_i)$ . We then decide to model the mean as a transformation of a linear predictor in $x_i$ , or in symbols $p_i = g^{-1}\left( \beta_0 + \beta_1 x_i\right)$ . In our case we only have two unique values of $x_i$ , and therefore there are only two unique values of $p_i$ , say $p_0$ and $p_1$ . A causa de nuestra independencia hipótesis nos han $\sum \limits_{i : x_i = 0} Y_i = S_{01} \sim \text{Bin} \left(n_0, p_0\right)$ y $\sum \limits_{i : x_i = 1} Y_i = S_{11} \sim \text{Bin} \left(n_1, p_1\right).$ Nota cómo estamos usando el hecho de que el $x_i$ , y en vez de $n_0$ $n_1$ , no aleatorio: si este no era el caso, entonces estos no necesariamente se binomial.

Esto significa que $S_{01} / n_0 = \frac{S_{01}}{S_{00} + S_{01}} \to_p p_0 \hspace{2 mm} \text{ y } \hspace{2 mm} S_{11} / n_1 = \frac{S_{11}}{S_{10} + S_{11}} \to_p p_1.$

The key insight here: our Bernoulli RVs are $Y_i | x_i = j \sim \text{Berna}(p_j)$ while our binomial RVs are $S_{j1} \sim \text{Bin}(n_j, p_j)$ , pero ambos tienen la misma probabilidad de éxito. Esa es la razón por la que estas tablas de contingencia proporciones son la estimación de la misma cosa como una observación a nivel de la regresión logística. No se trata de alguna coincidencia con la tabla: es una consecuencia directa de la distribución de la hipótesis que nos han hecho.

Respondido el 13 de Marzo, 2018 por Paulius (369 Puntos )

Answer 3

1voto

horaceT Puntos 170

Cuando usted tiene más de uno de los predictores y todos los predictores son variables binarias, usted podría ajustar un modelo usando la Lógica de Regresión [1] (nota de la "Lógica" no "Logística"). Es útil cuando usted cree que los efectos de la interacción entre los predictores son prominentes. Hay una aplicación en R (LogicReg paquete).

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). La lógica de regresión. Diario de cálculo y gráficas Estadísticas, 12(3), 475-511.

Respondido el 14 de Marzo, 2018 por horaceT (170 Puntos )

¿Tiene sentido utilizar la regresión Logística con el resultado binario y predictor?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Tiene sentido utilizar la regresión Logística con el resultado binario y predictor?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: