8 votos

Clasificación de las variables categóricas en la regresión logística

Estoy haciendo una investigación utilizando la regresión logística. 10 variables influyen en la variable dependiente. Una de ellas es categórica (por ejemplo, entrega urgente, entrega estándar, etc.). Ahora quiero clasificar esas categorías en función de la "fuerza" de su efecto sobre la variable dependiente.

Todas son significativas (valor p pequeño), pero creo que no puedo utilizar simplemente el valor de las probabilidades para la clasificación. De alguna manera tengo que averiguar si cada categoría es también significativamente diferente de las otras categorías. ¿Es esto correcto?

He leído sobre la posibilidad de centrar la variable. ¿Es realmente una opción? No quiero que el resto de mi modelo se vea afectado.


Salida de Stata para apoyar mi comentario al post de @subra:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------

1voto

Klaus Puntos 1

Dado que le interesa clasificar las categorías, es posible que desee recodificar las variables categóricas en una serie de variables binarias separadas.

Ejemplo: Crear una variable binaria para la entrega urgente, que tomaría el valor 1 para los casos de entrega urgente y 0 en caso contrario. Del mismo modo, una variable binaria para la entrega estándar.

Para cada una de estas variables binarias recodificadas se pueden calcular los efectos marginales como se indica a continuación:

Formula

Permítanme explicar un poco la ecuación anterior: digamos que d es la variable binaria recodificada para la entrega urgente

Formula es la probabilidad del evento evaluada en la media cuando d=1

Formula es la probabilidad del evento evaluada en la media cuando d=0

Una vez calculados los efectos marginales de todas las categorías (variables binarias recodificadas), podrá clasificarlas.

-2voto

user35660 Puntos 5

Podría ajustar el modelo de regresión logística utilizando sólo una variable en ese momento y examinar el R2 ajustado.

El que explica la mayor parte de la varianza debería tener más impacto en el modelo...

Sólo estoy suponiendo, no estoy seguro de que sea una solución rigurosa...

-2voto

HEITZ Puntos 164

Esta es una pregunta común con multitud de respuestas. La más sencilla es utilizar características estandarizadas; el valor absoluto de los coeficientes que se obtienen puede interpretarse vagamente como "más alto" = "más influencia" en el log(odds). En su mayor parte, el uso de puntuaciones estándar no debería afectar a los resultados generales (la curva ROC debería ser la misma; la matriz de confusión debería ser la misma, suponiendo que se elija un umbral de decisión comparable). Suelo calcular la regresión de ambas maneras; una vez utilizando las puntuaciones brutas (para obtener la ecuación de predicción que utilizaré) y una segunda vez utilizando las puntuaciones estandarizadas para ver cuáles son las mayores.

En cuanto a los predictores categóricos, supongo (pero no lo he comprobado) que lo mismo ocurre cuando se utilizan predictores normalizados.

Si aún no lo ha hecho, también debería considerar el uso de la regularización: Lasso/ridge/red elástica. Esto ayudará a eliminar las características débiles, irrelevantes o redundantes, dejándole con un modelo más parsimonioso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X