8 votos

Intervalos de significación y credibilidad del término de interacción en la regresión logística

He ajustado una regresión logística bayesiana en WinBugs y tiene un término de interacción. Algo así: $$\mathrm{Prob}(y_{i}=1) = \mathrm{logit}^{-1} (a + b_{1}*x_{i} + b_{2}*w_{i} + b_{3}*x_{i}*w_{i})$$

donde $x$ es una variable continua estandarizada, y $w$ es una variable ficticia. En realidad el modelo es más complicado, pero quiero mantener las cosas simples.

Sucede que el término de interacción es "significativo", pero no los predictores individuales. Por ejemplo,

$\mathrm{mean}(b_{1}) = -.2$ y $95%$ cuantil: $(-1.3$ y $.7)$

$\mathrm{mean}(b_{2}) = -.4$ y $95%$ cuantil: $(-1.3$ y $.5)$

$\mathrm{mean}(b_{3}) = 1.4$ y $95%$ cuantil: $(.4$ y $2.5)$

¿Tenéis algún consejo sobre cómo reaccionar ante este hallazgo? Pensé que podría calcular intervalos de credibilidad del 95% para todo el efecto de $x$ cuando $w=1$ . Esto sería: Cuantil del 95% para el efecto total de x, condicionado a $w=1$ : $(-1.3+.4$ y $.7+2.5) = (-.9 + 3.2)$

¿Es esto correcto? Si no es así, ¿qué debo hacer? ¿Alguna referencia sobre el tema?

5voto

Noam Gal Puntos 155

No, tu cálculo no es correcto, porque:

a) $b_1$ y $b_3$ están probablemente correlacionadas en la distribución posterior, y

b) aunque no lo fueran, no es así como se calcularía (piensa en la ley de los grandes números).

Pero no temas, hay una manera muy fácil de hacer esto en WinBUGS. Sólo tienes que definir una nueva variable:

b1b3 <- b1 + b3

y controlar sus valores.

EDITAR:

Para una mejor explicación de mi primer punto, supongamos que la posterior tiene una distribución normal multivariante conjunta (no lo será en este caso, pero sirve como ilustración útil). Entonces el parámetro $b_i$ tiene distribución $N(\mu_i,\sigma_i^2)$ por lo que el intervalo de credibilidad del 95% es $(\mu_i - 1.96 \sigma_i,\mu_i + 1.96 \sigma_i)$ - Obsérvese que esto sólo depende de la media y la varianza.

Ahora $b_1+b_3$ tendrá una distribución $N(\mu_1 + \mu_3,\sigma_1^2 + 2 \rho_{13}\sigma_1\sigma_3 + \sigma_3^2)$ . Obsérvese que el término de varianza (y, por tanto, el intervalo de credibilidad del 95%) incluye el término de correlación $\rho_{13}$ que no se puede encontrar a partir de los intervalos para $b_1$ o $b_3$ .

(Mi punto sobre la ley de los grandes números era sólo que las desviaciones estándar de la suma de 2 variables aleatorias independientes es menor que la suma de las desviaciones estándar).

En cuanto a cómo implementarlo en WinBUGS, algo así es lo que tenía en mente:

model {
  a ~ dXXXX
  b1 ~ dXXXX
  b2 ~ dXXXX
  b3 ~ dXXXX
  b1b3 <- b1 + b3

  for (i in 1:N) {
    logit(p[i]) <- a + b1*x[i] + b2*w[i] + b3*x[i]*w[i]
    y[i] ~ dbern(p[i])
  }
}

En cada paso del muestreador, el nodo b1b3 se actualizará de b1 y b3 . No necesita un previo ya que es sólo una función determinista de otros dos nodos.

0 votos

No estoy seguro de entender su comentario. Si b1 y b3 están correlacionados, ¿qué importancia tiene? Es decir, su distribución conjunta tiene que caracterizarse con algún parámetro de correlación, pero ¿y qué? Tengo sus distribuciones marginales. 2. No he entendido lo que mencionas sobre la ley de los grandes números. ¿Podría ampliarlo? 3. Por último, ¿me estás sugiriendo que añada b1 + b3 en el bucle principal? ¿Y sólo tengo que usar un vago previo a este nuevo parámetro? Gracias.

1voto

Aleksandr Levchuk Puntos 1110

Actualmente tengo un problema similar. También creo que el enfoque para calcular el efecto total de w es correcto. Creo que esto puede ser probado a través de

h0: b2 + b3 * media(x) = 0; ha: b2 + b3 * media(x) != 0

Sin embargo, me topé con un artículo de Ai/Norton, quienes afirman que "la magnitud del efecto de interacción en los modelos no lineales no es igual al efecto marginal del término de interacción, puede ser de signo contrario y su significación estadística no se calcula con el software estándar". (2003, p. 123)

Así que tal vez deberías intentar aplicar sus fórmulas. (Y si entiendes cómo hacerlo, por favor, dímelo).

PS. Esto parece parecerse a la prueba del chow para las regresiones logísticas. Alfred DeMaris (2004, p. 283) describe una prueba para esto.

Referencias:

Ai, Chunrong / Norton, Edward (2003): Interaction terms in logit and probit models, Economic Letters 80, p. 123-129

DeMaris, Alfred (2004): Regresión con datos sociales: modelización de variables de respuesta continua y limitada. John Wiley & Sons, Inc., Hoboken NJ

0 votos

Gracias por la referencia. Le echaré un vistazo e informaré aquí si avanzo en el asunto. Respecto a la prueba que sugieres, no creo que sirva. Recuerda en primer lugar que la interacción es bidireccional, de x con w y de w con x. Con esto quiero decir que aunque h0 sea cierta, todavía es posible que digamos h2: b1 + b2*mean(w) no sea cero. Además, en general sé de antemano que la hipótesis nula es falsa, es decir, en general no existe el efecto cero. Con una muestra suficientemente grande puedo encontrar cualquier efecto que sea significativo.

0 votos

Y otro punto. Incluso si h0 y h2 son verdaderos, todavía es posible que digamos h3: b2 + b3*(media(x)+sd(x)) != 0. En otras palabras, deberíamos probar no sólo para la media de x (o w), sino para toda la distribución de valores, ya que un terma de interacción es una forma de decir que el efecto predictivo varía por subgrupos de predictores.

0 votos

No entiendo bien lo que quieres decir. Cuando se prueba si b2 + b3 * media (x) == 0, siempre se compara con algún estadístico de prueba para determinar si el resultado es significativamente diferente de cero, la desviación estándar de x no es el único factor relevante.

1voto

Zizzencs Puntos 1358

Algunas reflexiones: 1) No estoy seguro de que el hecho de que esto sea bayesiano importe. 2) Creo que su enfoque es correcto 3) Las interacciones en la regresión logística son complicadas. Escribí sobre esto en un documento que es sobre SAS PROC LOGISTIC, pero la idea general se mantiene. Ese documento está en mi blog y está disponible aquí

0 votos

Estoy de acuerdo en que es probable que sea bayesiano o no, no importa. Sólo dije que era bayesiano por si acaso importaba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X