7 votos

¿Cómo interpretar los coeficientes de regresión en la regresión logística?

He realizado la siguiente regresión logística:

glm(formula = DecisionasReceiver ~ L1 + L2 + L3, 
  family = binomial("logit"), data = lue)

donde L1 L2 y L3 codifican las diferencias en la condición del nº VERDE. L1: 1,-1,0,0 : ¿hay alguna diferencia en DecisionascomoReceptor cuando no.GREEN cambia de 1 a 2?

L2: 0,1,-1,0: ¿hay alguna diferencia en DecisionascomoReceptor al cambiar el no.VERDE de 2 a 3?

L2: 0,0,1,-1: ¿hay alguna diferencia en DecisionascomoReceptor al cambiar el no.VERDE de 3 a 4?

Y estoy ejecutando esta regresión tanto para los casos en que MessageReceived es AZUL como para MessageReceived ROJO.

Tengo el siguiente resultado:

   Coefficients:
      Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.9535     0.3659  -2.606  0.00916 ** 
L1            2.2753     0.5406   4.209 2.56e-05 ***
L2            3.1234     0.7318   4.268 1.97e-05 ***
L3            1.9369     0.8134   2.381  0.01726 *  

Observando mi gráfico parece extraño que los coeficientes sean positivos y que el intercepto sea -0,953. ¿Cómo debo interpretar exactamente estos resultados a la luz del gráfico?

http://dl.dropbox.com/u/22681355/graph.png

3voto

kbrinley Puntos 664

Cambié completamente mi respuesta a raíz de una larga conversación con Daniel. Intentaré proporcionar algunos antecedentes para que los lectores interesados puedan entender mi respuesta.

Según entiendo la pregunta, Daniel intenta evaluar el efecto de no.Verde en la probabilidad de que los sujetos elijan el rojo en un experimento. no.Verde es el número de bolas (1, 2, 3 o 4). Y el experimento se llevó a cabo bajo varias condiciones, a saber: bajo no.Rojo igual a 5, 7 y 9; y bajo condición en la que el mensaje es azul y el mensaje es rojo. Por lo tanto, tenemos un total de 4 * 3 * 2 = 24 condiciones (4 condiciones de no.Verde, 3 condiciones de no.Rojo y 2 condiciones de mensaje azul o rojo).

Una única regresión con todos los términos de interacción es bastante compleja de interpretar. Sin embargo, su tarea principal es bastante sencilla, a saber: demostrar que no.verde tiene un efecto sobre la probabilidad de elegir el rojo. Por tanto, mi sugerencia es realizar una regresión separada para las condiciones mensaje == azul y mensaje == rojo, y también una regresión separada para cada condición no.rojo. Además, simplificaré las cosas suponiendo que no.Green es continua (parece que es posible tratarla como continua, o al menos como una variable de intervalo). En R, para el caso mensaje == azul, basta con hacer esto:

fit.1 = glm(DecisionasReceiver ~ no.GREEN, family=binomial, data=subset(lue, messagereceived=="blue" & no.RED==5) )

fit.2 = glm(DecisionasReceiver ~ no.GREEN, family=binomial, data=subset(lue, messagereceived=="blue" & no.RED==7) )

fit.3 = glm(DecisionasReceiver ~ no.GREEN, family=binomial, data=subset(lue, messagereceived=="blue" & no.RED==9) )

Ahora, para evaluar correctamente el efecto de no.green, hay que tener en cuenta la incertidumbre de las estimaciones. Si nos fijamos en los errores estándar, veremos que no.green es significativo. Sin embargo, fijarse sólo en los errores estándar no permite comprender adecuadamente el rango de incertidumbre. Digamos, por ejemplo, que está interesado en saber cómo de menos propensos a elegir el rojo son los sujetos (bajo la condición nº rojo ==5) con nº verde == 2 en comparación con los sujetos con nº verde == 1. Para responder a este tipo de pregunta, se puede utilizar el método de los errores estándar. Para responder a este tipo de pregunta, es mejor, creo yo, fijarse en la probabilidad predicha, pero teniendo en cuenta la incertidumbre en las estimaciones. Para ello, voy a utilizar la función "sim", del paquete arm.

require(arm)
n.sims = 1000
sim.1 = sim(fit.1, n.sims)
with(subset(lue, messagereceived=="blue" & no.RED==5), plot(no.GREEN,jitter(DecisionasReceiver, .1),
ylab="Probability of Choosing Red", xlab="Number of Green", 
main="Effect of Green under no.Red equals 5"))
for (s in 1:100)
curve(invlogit(coef(sim.1)[s,1] +coef(sim.1)[s,2]*x), col="gray", xlim=c(1,4), add=T)

El resultado es un gráfico con 100 curvas logísticas. Cada curva representa un posible efecto del nº verde sobre la probabilidad de elegir el rojo. A partir del gráfico, vemos cuál es el rango más probable de probabilidad predicha para cada valor de no.verde.

Espero que te ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X