Processing math: 100%

19 votos

¿Tiene sentido utilizar la regresión Logística con el resultado binario y predictor?

Tengo un resultado binario variable {0,1} y un predictor de la variable {0,1}. Mis pensamientos son que no tiene sentido hacer la logística, a menos que yo se incluyen otras variables y calcular el odds ratio.

Con un binario predictor, no de cálculo de probabilidad suficiente vs odds ratio?

26voto

Paulius Puntos 369

En este caso, el colapso de sus datos a XY010S00S011S10S11 donde Sij es el número de instancias para x=iy=ji,j{0,1}. Supongamos que hay n observaciones total.

Si queremos ajustar el modelo a pi=g1(xTiβ)=g1(β0+β11xi=1) (donde g es nuestra función de enlace) nos vamos a encontrar a ese ˆβ0 es el logit de la proporción de éxitos al xi=0 ˆβ0+ˆβ1 es el logit de la proporción de éxitos al xi=1. En otras palabras, ˆβ0=g(S01S00+S01) y ˆβ0+ˆβ1=g(S11S10+S11).

Let's check this is R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

So the logistic regression coefficients are exactly transformations of proportions coming from the table.

The upshot is that we certainly can analyze this dataset with a logistic regression if we have data coming from a series of Bernoulli random variables, but it turns out to be no different than directly analyzing the resulting contingency table.


I want to comment on why this works from a theoretical perspective. When we're fitting a logistic regression, we are using the model that Yi|xi\asesinoBerna(pi). We then decide to model the mean as a transformation of a linear predictor in xi, or in symbols pi=g1(β0+β1xi). In our case we only have two unique values of xi, and therefore there are only two unique values of pi, say p0 and p1. A causa de nuestra independencia hipótesis nos han i:xi=0Yi=S01Bin(n0,p0) y i:xi=1Yi=S11Bin(n1,p1). Nota cómo estamos usando el hecho de que el xi, y en vez de n0n1, no aleatorio: si este no era el caso, entonces estos no necesariamente se binomial.

Esto significa que S01/n0=S01S00+S01pp0 y S11/n1=S11S10+S11pp1.

The key insight here: our Bernoulli RVs are Yi|xi=jBerna(pj) while our binomial RVs are Sj1Bin(nj,pj), pero ambos tienen la misma probabilidad de éxito. Esa es la razón por la que estas tablas de contingencia proporciones son la estimación de la misma cosa como una observación a nivel de la regresión logística. No se trata de alguna coincidencia con la tabla: es una consecuencia directa de la distribución de la hipótesis que nos han hecho.

1voto

horaceT Puntos 170

Cuando usted tiene más de uno de los predictores y todos los predictores son variables binarias, usted podría ajustar un modelo usando la Lógica de Regresión [1] (nota de la "Lógica" no "Logística"). Es útil cuando usted cree que los efectos de la interacción entre los predictores son prominentes. Hay una aplicación en R (LogicReg paquete).

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). La lógica de regresión. Diario de cálculo y gráficas Estadísticas, 12(3), 475-511.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X