17 votos

La categorización de una variable la convierte de insignificante a significativa

Tengo una variable numérica que no resulta significativa en un modelo de regresión logística multivariable. Sin embargo, cuando lo categorizo en grupos, de repente se vuelve significativo. Esto es muy poco intuitivo para mí: al categorizar una variable, damos algo de información.

¿Cómo puede ser esto?

25voto

icelava Puntos 548

Una posible explicación sería la falta de linealidad en la relación entre el resultado y el predictor.

He aquí un pequeño ejemplo. Utilizamos un predictor que es uniforme en $[-1,1]$. El resultado, sin embargo, no linealmente dependen del predictor, pero en la plaza de la predictor: TRUE es más probable que tanto $x\approx-1$ e $x\approx 1$, pero menos probable $x\approx 0$. En este caso, un modelo lineal vendrá insignificante, pero el corte del predictor en intervalos de hace significativo.

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Sin embargo, esto no significa que la discretización de la predictor es el mejor enfoque. (Casi nunca lo es). Mucho mejor el modelo de la no linealidad utilizando o similar.

7voto

AdamSane Puntos 1825

Una forma posible es si la relación es claramente no lineal. No es posible decir (dada la falta de detalles) si esto realmente explica lo que está sucediendo.

Puedes comprobarlo por ti mismo. Primero, podría hacer una gráfica de variable agregada para la variable como sí misma, y también podría trazar los efectos ajustados en la versión factorial del modelo. Si la explicación es correcta, ambos deberían ver un patrón claramente no lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X