9 votos

Regresión logística: ¿qué ocurre con los coeficientes cuando cambiamos las etiquetas (0/1) del resultado binario

Cómo interpretar los coeficientes de la regresión logística? Para ser más específicos, tengo un conjunto de variables independientes y una variable dependiente (let it be "lluvia" o "no rain", que se expresa como 1 y 0, respectivamente)

Voy a construir mi modelo de regresión logística y quiero obtener una visión acerca de las relaciones entre mis entradas y salidas, y ver cuáles son las variables más influyentes en el modelo. Para ello me valgo para el modelo de coeficientes:

Variable       Coeff               P-Value 
x1_0          0.63914           1.27e-11 ***
X2_0          0.59451           2e-16 ***
X3_0         -0.38567           1.16e-08 ***
X4_0         -0.58933           6.23e-05 ***
X5_0         -0.01629           0.775    

Mi pregunta ahora es, son estos coeficientes se refieren a la "lluvia" o a la "no rain" en mi salida? En el libro "Práctica en Ciencia de Datos con R" en el capítulo 7, dice: "Negativo coeficientes son estadísticamente significativos corresponden a las variables que se correlacionaron negativamente a las posibilidades (y, por tanto, la probabilidad de un resultado positivo (el bebé está en riesgo). Positivo coeficientes son estadísticamente significativos están correlacionados positivamente a la probabilidad de un resultado positivo".

¿El resultado positivo aquí se refiere a la "lluvia" en mi variable de salida?

17voto

fcop Puntos 2891

Con un modelo de regresión logística se trata de un 'modelo' de la probabilidad de lluvia. Como cualquier otro modelo, el modelo tendrá que hacer suposiciones y una de sus hipótesis es que esta probabilidad de lluvia depende de cinco variables explicativas, para la facilidad de la notación llamaré $x_i, i=1,2, \dots 5$. Además, el modelo asume que la probabilidad de lluvia, dado los valores de la $x_i$ (notación: $P(rain=true|_{x_i})$ tiene una particular funcional $S$-es decir, en forma de

$P(rain=true|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}}$.

Después de algunas manipulaciones podemos transformar esta a $\ln \left( \frac{P(rain=true|_{x_i})}{1-P(rain=true|_{x_i})} \right)=\beta_0+\sum_i \beta_i x_i$. ($\ln$ es el logaritmo natural)

Si $\pi$ es la probabilidad de ocurrencia de un evento y, a continuación, $\frac{\pi}{1-\pi}$ es la probabilidad de que el evento. Por ejemplo, si usted hace una apuesta con una moneda, y usted gana la apuesta, cuando la cabeza se convierte, entonces, como $\pi=0.5$, las probabilidades de ganar son $\frac{0.5}{1-0.5}=1$ o usted tiene tantas posibilidades de ganar la apuesta que de perder. Si usted hace una apuesta y usted ganar cuando muere vuelve con '1', entonces las probabilidades son $\frac{\frac{1}{6}}{1-\frac{1}{6}}=\frac{1}{5}$ o de las probabilidades es 1/5 o se tienen cinco veces más probabilidades de perder la apuesta.

De lo anterior se sigue que un modelo de regresión logística se supone (a) que la probabilidad de lluvia es una función de la $x_i$ y (b) que el registro de las probabilidades de lluvia contra la lluvia no es lineal en la $x_i$.

(Nota: otras cuestiones que deben ser realizados para la estimación de los coeficientes (por ejemplo, la independencia de las observaciones)).

Su coeficiente de $x_{10}$ (redondeado) 0.64 lo que significa que si $x_{10}$ se incrementa en una unidad, entonces, todas las otras cosas iguales, el registro de las probabilidades de lluvia contra la lluvia no va a aumentar por $0.64$.

Si el registro de las probabilidades aumenta por $0.64$, entonces, todas las otras cosas iguales, las probabilidades aumentan por $e^{0.64}$ (por cada unidad de incremento en $x_{10}$).

Tal vez buena la nota con respecto a su 'influyentes': En el párrafo de arriba me dijo 'cambio en el log-odds para una unidad de cambio en $x_i$'. Esto es importante si se quieren analizar 'influyentes', de hecho, las variables pueden ser espressed en diferentes unidades: si el coeffient de $x_1$ 1 $x_1$ es en el kilómetro, mientras que el coeficiente de $x_2$ es de 0,1 $x_2$ en el medidor (a) un cambio de unidad en $x_1$ (a 1 km) los cambios en el log-odds por 1 y (b) un cambio de unidad en $x_2$ (1 m) los cambios en el log-odds 0.1.

Así que con el fin de evaluar el impacto de las variables, un análisis de la magnitud de los coeficientes por sí sola no es suffcient, usted debe tomar las unidades de las variables en cuenta (o el uso normalizado de las variables).

EDIT: he añadido este después de la pregunta en su comentario: "¿qué pasa si me predecir las probabilidades de que la lluvia no en lugar de las probabilidades de lluvia?"

Obviamente tiene que $P(rain=FALSE|_{x_i})=1-P(rain=true|_{x_i})$. Para el registro de probabilidades de lluvia no contra la lluvia es $ln \left( \frac{P(rain=FALSE|_{x_i})}{1-P(rain=FALSE|_{x_i})} \right) =\ln \left( \frac{1-P(rain=true|_{x_i})}{P(rain=true|_{x_i})} \right)=-\ln \left( \frac{P(rain=true|_{x_i})}{1-P(rain=true|_{x_i})} \right )$.

(tenga en cuenta que $\ln \left( \frac{1}{x} \right)=-\ln(x)$).

Así nos encontramos con que las probabilidades de que 'no rain' en contra de 'la lluvia' es $\ln \left( \frac{P(rain=FALSE|_{x_i})}{1-P(rain=FALSE|_{x_i})} \right) = -(\beta_0+\sum_i \beta_i x_i) $. En palabras: el signo de los coeficientes de cambios.

Como @Scortchi ha indicado en los comentarios, uno tendría serias dudas acerca de la regresión logística si el solo hecho de cambiar las etiquetas de clase sería una completamente diferente resultado.

El código siguiente ilustra el signo 'switch' :

# Generate some data: outcome is binary and x is the explanatory
#   step 1: generate success probabilities for Bernouilli variables
set.seed(1)
x<-runif(n=5000, min=-2, max=2)
p<-1/(1+exp(-(2*x-1)))
#   step 2: generate binary outcome with these probabilities 
outcome<-(runif(n=5000,min=0,max=1) <=p)

# Estimate logit using: estimate binary outcome with x as explanatory
glm.lr1<-glm(outcome ~ x +1, family=binomial)
coef(glm.lr1)

# estimate logit using  **'outcome' SWITCHED** ('!' in front of it)
glm.lr2<-glm(!outcome ~ x +1, family=binomial)
coef(glm.lr2)

Nota de los resultados: La forma en que se generaron los datos, la intersección debe estar cerca de -1 y el coeficiente de x cerca de a 2 en el primer caso y a la inversa signos en el segundo caso

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X