Uno de los predictores de mi modelo logístico se ha transformado en logaritmo. ¿Cómo se interpreta el coeficiente estimado del predictor transformado en logaritmo y cómo se calcula el impacto de ese predictor en la razón de momios?
Respuestas
¿Demasiados anuncios?Si expones el coeficiente estimado, obtendrás un odds ratio asociada a un $b$ -aumentar el número de veces en el predictor, donde $b$ es la base del logaritmo que ha utilizado al transformar el predictor en logaritmo.
En esta situación suelo optar por tomar logaritmos en base 2, para poder interpetar el coeficiente exponenciado como un odds ratio asociado a un duplicando del predictor.
@gung tiene toda la razón, pero, en caso de que hacer decida mantenerlo, puede interpretar que el coeficiente ha tenido un efecto en cada múltiples del IV, en lugar de cada adición de la IV.
Una IV que a menudo debería transformarse es la de los ingresos. Si lo incluyera sin transformar, entonces cada (digamos) incremento de 1.000 dólares en los ingresos tendría un efecto en la razón de probabilidades como se especifica en la razón de probabilidades. Por otro lado, si se toma el log(10) de los ingresos, entonces cada aumento de 10 veces en los ingresos tendría el efecto en la razón de probabilidades especificado en la razón de probabilidades.
Tiene sentido hacerlo para los ingresos porque, en muchos sentidos, un aumento de \$1,000 in income is much bigger for someone who makes \$ 10.000 al año que alguien que gana 100.000 dólares.
Una nota final - aunque la regresión logística no hace suposiciones de normalidad, incluso la regresión OLS no hace suposiciones sobre las variables, sino que hace suposiciones sobre el error, como se estima por los residuos.
Esta respuesta es una adaptación de The Statistical Sleuth, de Fred L. Ramsey y Daniel W. Schafer.
Si su ecuación modelo es:
$log(p/(1-p)) = \beta _{0} + \beta log(X)$
Entonces, cada $k$ -aumento de la cantidad de $X$ se asocia con un cambio en las probabilidades por un factor multiplicativo de $k^{\beta }$ .
Por ejemplo, tengo el siguiente modelo para la presencia de úlceras de decúbito en función de la duración de la estancia en un hospital.
$log(odds of bedsore)= -.44 + 0.45(length of stay)$
Así que mi $\beta = 0.45$ .
Puede elegir cualquier $k$ En función de lo que mejor funcione para la interpretabilidad de su modelo.
Decido que $k=2$ y obtenga lo siguiente:
$k^{\beta } = 2^{0.45} = 1.37$
Cada duplicación ( $k=2$ ) de la duración de la estancia se asocia con un cambio en las probabilidades de tener una escara por un factor de 1,37. O bien, si se duplica la duración de mi estancia, mis probabilidades de tener una escara serán un 137% de lo que habrían sido en caso contrario.
O si decide $k=0.5$ .
$k^{\beta } = 0.5^{0.45} = 0.73$
Cada división por la mitad ( $k=0.5$ ) de la duración de la estancia se asocia con un cambio en las probabilidades de tener una escara por un factor de 0,73. O bien, si se reduce la duración de la estancia a la mitad, mis probabilidades de sufrir una úlcera de decúbito serán sólo el 73% de lo que habrían sido en caso contrario.
El modelo general es
$ln(p/(1-p)) = \beta _{0} + \beta log_k(x)$
para algunos $k$ que podría ser $e$ . Comienzo explicando el caso de $k=e$ , entonces considere el general $k$ .
Caso 1: $k=e$ es decir, la variable independiente transformada en logaritmo natural. Entonces, si $\beta$ es cercano a cero podemos decir "un aumento del 1% en $x$ lleva a un $\beta$ aumento de las probabilidades del resultado". A continuación, los detalles.
El modelo es
$ln(p/(1-p)) = \beta _{0} + \beta ln(x)$
donde $ln()$ es el logaritmo natural.
El comentario de @whuber fue que siempre utilizan logaritmos naturales para la variable independiente, ya que en este caso sólo, si $\beta$ es pequeño, entonces es aproximadamente el cambio porcentual en las probabilidades de un aumento porcentual en $x$ .
Para ver esto, ayuda definir $odds(x) = p(x)/(1-p(x))$ como las probabilidades de que la variable dependiente sea 1 dado el valor x. Entonces el modelo es $ln(odd(x)) = \beta _{0} + \beta ln(x)$ . Utilizando los argumentos habituales para las regresiones con transformación logarítmica (por ejemplo https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqhow-do-i-interpret-a-regression-model-when-some-variables-are-log-transformed/ ), podemos escribir para los valores $x_1$ y, digamos, $x_2 = 1.01 \times x_1$ ,
$odds(x_2)/odds(x_1) = (x_2/x_1)^\beta = (1.01)^\beta \approx 1 + \beta \times 0.01$
la última aproximación requiere $|\beta|$ para ser pequeño.
Así, podemos escribir en este caso, "un aumento del 1% en $x$ conduce a un $\beta$ aumento de las probabilidades del resultado". Por ejemplo, si $\beta = 0.05$ entonces $\beta \times 0.01 = 0.0005$ por lo que un aumento del 1% en x conduce a un aumento del 0,05% en las probabilidades de que el resultado sea 1 (es decir, estas probabilidades se multiplican por 1,0005).
Este argumento se basa en que la base del logaritmo utilizado para la variable independiente es la misma que la base utilizada para el logaritmo de las probabilidades en la transformación logit. Como prácticamente siempre la base utilizada para la transformación logit es el logaritmo natural, este argumento se basa en el uso del logaritmo natural para transformar la variable independiente. (Si uno hiciera una regresión logit modificada que utilizara una base diferente para la transformación logit, parece que el mismo argumento se mantendría, pero no creo que esto sea una convención).
Caso 2: base $k$ variable independiente transformada. A continuación, el coeficiente exponencial, $e^\beta$ puede interpretarse como el aumento proporcional de las probabilidades de un $k$ -aumento de la variable independiente. Tenga en cuenta que $k$ podría ser $e$ pero $e$ sería una elección muy extraña dada esta interpretación.
El modelo es
$ln(p/(1-p)) = \beta _{0} + \beta log_k(x)$
donde $ln()$ es el logaritmo natural y $log_k()$ es la base logarítmica k. Obsérvese que la transformación logit de la variable dependiente sigue utilizando el logaritmo natural.
Una vez más, ayuda a definir $odds(x) = p(x)/(1-p(x))$ (ver arriba). Las derivaciones generales utilizando la ecuación del modelo arrojan que
$odds(log_k(x) + 1) / odds(log_k(x)) = e^\beta$
esta es la interpretación habitual de los coeficientes exponenciados, llamados "odds ratios" (por ejemplo, en Stata, los comandos relevantes son -logit, or- donde el "or" significa "odds ratio", o -esttab, eform- donde el "eform" significa "exponenciar usando e"). En palabras, el coeficiente $e^\beta$ representa el proporcional aumento de las probabilidades de que la variable dependiente sea 1 a partir de un unidad aumento de la variable independiente. Por ejemplo, si $e^\beta = 1.10$ entonces las probabilidades aumentan en un 10% por un incremento unitario de la variable independiente.
Como la variable independiente se transforma en logaritmo, podemos utilizar $1 = log_k(k)$ para encontrar
$odds(log_k(x) + log_k(k)) / odds(log_k(x)) = e^\beta$
así
$odds(log_k(kx)) / odds(log_k(x)) = e^\beta$
Por lo tanto, el coeficiente exponencial representa el aumento proporcional de las probabilidades de un aumento de k veces en el $x$ (la variable no transformada logísticamente).