64 votos

Interpretación del predictor y/o la respuesta transformados logarítmicamente

Me pregunto si hay alguna diferencia en la interpretación si sólo se transforman logarítmicamente las variables dependientes, tanto las dependientes como las independientes, o sólo las independientes.

Consideremos el caso de

log(DV) = Intercept + B1*IV + Error 

Puedo interpretar el IV como el porcentaje de aumento, pero ¿cómo cambia esto cuando tengo

log(DV) = Intercept + B1*log(IV) + Error

o cuando tengo

DV = Intercept + B1*log(IV) + Error

?

1 votos

Tengo la sensación de que la interpretación del "incremento porcentual" no es correcta pero no tengo la comprensión suficiente para decir por qué exactamente. Espero que alguien pueda ayudar....Más allá de eso, yo recomendaría modelado utilizar troncos si ayudan a establecer mejor una relación X-Y, pero información ejemplos seleccionados de esa relación utilizando las variables originales. Sobre todo si se trata de un público que no tiene demasiados conocimientos técnicos.

3 votos

@rolando2: No estoy de acuerdo. Si un modelo válido requiere transformación, entonces una interpretación válida normalmente se basará en los coeficientes del modelo transformado. Sigue siendo responsabilidad del investigador comunicar adecuadamente el significado de esos coeficientes a la audiencia. Esta es, por supuesto, la razón por la que nos pagan tanto dinero que, para empezar, nuestros salarios tienen que transformarse logarítmicamente.

1 votos

@BigBucks: Pues míralo de esta manera. Supongamos que tu audiencia no puede entender lo que quieres decir cuando explicas que por cada cambio de 1 en el logaritmo (base 10) de X, Y cambiará en b. Pero supongamos que pueden entender 3 ejemplos usando valores de X de 10, 100 y 1000. En ese momento es probable que se den cuenta de la naturaleza no lineal de la relación. Podría seguir indicando la b global, basada en el logaritmo, pero dar esos ejemplos podría marcar la diferencia.

69voto

tricasse Puntos 1610

Charlie ofrece una explicación agradable y correcta. El sitio Statistical Computing de la UCLA tiene algunos ejemplos más: https://stats.oarc.ucla.edu/sas/faq/how-can-i-interpret-log-transformed-variables-in-terms-of-percent-change-in-linear-regression y https://stats.oarc.ucla.edu/other/mult-pkg/faq/general/faqhow-do-i-interpret-a-regression-model-when-some-variables-are-log-transformed

Para complementar la respuesta de Charlie, a continuación le ofrecemos interpretaciones específicas de sus ejemplos. Como siempre, las interpretaciones de los coeficientes suponen que puedes defender tu modelo, que los diagnósticos de regresión son satisfactorios y que los datos proceden de un estudio válido.

Ejemplo A : Sin transformaciones

DV = Intercept + B1 * IV + Error 

"El aumento de una unidad de IV se asocia a un ( B1 ) unidad de aumento del VD".

Ejemplo B : Resultado transformado

log(DV) = Intercept + B1 * IV + Error 

"El aumento de una unidad de IV se asocia a un ( B1 * 100 ) por ciento de aumento de la VD".

Ejemplo C : Exposición transformada

DV = Intercept + B1 * log(IV) + Error 

"Un aumento del 1% en IV se asocia con un ( B1 / 100 ) unidad de aumento del VD".

Ejemplo D : Resultado transformado y exposición transformada

log(DV) = Intercept + B1 * log(IV) + Error 

"Un aumento del 1% en IV se asocia con un ( B1 ) por ciento de aumento de la VD".

4 votos

¿Son válidas estas interpretaciones independientemente de la base del logaritmo?

0 votos

Ejemplo B: Log(VD) transformado en resultado = Intercepto + B1 * IV + Error "Un aumento unitario de IV se asocia con un aumento de (B1 * 100) por ciento de VD En este caso, ¿cómo se hace si se desea un 30 por ciento de reducción de VD? Gracias por su respuesta

0 votos

Entonces, ¿un VD ~ B1*log(IV) es un buen modelo para una variable dependiente continua con límite cero?

25voto

simmosn Puntos 304

En el modelo log-log-, véase que $$\begin{equation*}\beta_1 = \frac{\partial \log(y)}{\partial \log(x)}.\end{equation*}$$ Recordemos que $$\begin{equation*} \frac{\partial \log(y)}{\partial y} = \frac{1}{y} \end{equation*}$$ o $$\begin{equation*} \partial \log(y) = \frac{\partial y}{y}. \end{equation*}$$ Multiplicando esta última formulación por 100 se obtiene el cambio porcentual en $y$ . Tenemos resultados análogos para $x$ .

Utilizando este hecho, podemos interpretar $\beta_1$ como el cambio porcentual en $y$ para un cambio del 1% en $x$ .

Siguiendo la misma lógica, para el modelo de registro de niveles, tenemos

$$\begin{equation*}\beta_1 = \frac{\partial y}{\partial \log(x)} = 100 \frac{\partial y}{100 \times \partial \log(x)}.\end{equation*}$$ o $\beta_1/100$ es el cambio unitario en $y$ para un cambio del uno por ciento en $x$ .

0 votos

Nunca he entendido esto. Debe ser sencillo, pero nunca lo he visto... ¿Qué es exactamente \begin{equation*} \partial \log(y) = \frac{\partial y}{y}? \end{equation*} ¿y cómo se pasa de aquí a un cambio porcentual?

1 votos

Todo lo que hace esa línea es tomar la derivada de $\log(y)$ con respecto a $y$ y multiplicar ambos lados por $\partial y$ . Tenemos $\partial y \approx y_1 - y_0$ . Esta fracción, entonces es el cambio en $y$ dividido por $y$ . Multiplicado por 100, es el cambio porcentual en $y$ .

18voto

alexs77 Puntos 36

El objetivo principal de la regresión lineal es estimar una diferencia media de resultados comparando niveles adyacentes de un regresor. Existen muchos tipos de medias. Estamos más familiarizados con la media aritmética.

$$AM(X) = \frac{\left( X_1 + X_2 + \ldots + X_n \right)}{n}$$

El AM es lo que se estima utilizando MCO y variables sin transformar. La media geométrica es diferente:

$$GM(X) = \sqrt[\LARGE{n}]{\left( X_1 \times X_2 \times \ldots \times X_n \right)} = \exp(AM(\log(X))$$

enter image description here

Prácticamente, una diferencia de GM es una diferencia multiplicativa: se paga un X% de prima en intereses al asumir un préstamo, los niveles de hemoglobina disminuyen un X% tras empezar a tomar metformina, la tasa de fracaso de los muelles aumenta un X% como fracción de la anchura. En todos estos casos, una diferencia media bruta tiene menos sentido.

La transformación logarítmica estima una diferencia de medias geométricas. Si transforma logarítmicamente un resultado y lo modela en una regresión lineal utilizando la siguiente especificación de fórmula: log(y) ~ x el coeficiente $\beta_1$ es una diferencia media del resultado logarítmico comparando unidades adyacentes de $X$ . Esto es prácticamente inútil, así que exponenciamos el parámetro $e^{\beta_1}$ e interpretar este valor como una diferencia de medias geométricas.

Por ejemplo, en un estudio de la carga viral del VIH tras 10 semanas de administración de TAR, podríamos estimar la media geométrica prepost de $e^{\beta_1} = 0.40$ . Eso significa que cualquiera que sea la carga viral en la línea de base, fue en promedio 60% menos o tenían una disminución de 0,6 veces en el seguimiento. Si la carga era de 10.000 en la línea de base, mi modelo predeciría que sería de 4.000 en el seguimiento; si era de 1.000 en la línea de base, mi modelo predeciría que sería de 400 en el seguimiento (una diferencia menor en la escala bruta, pero proporcionalmente la misma).

Esta es una distinción importante con respecto a otras respuestas : La convención de multiplicar el coeficiente logarítmico por 100 procede de la aproximación $\log(x) \approx 1-x$ cuando $1-x$ es pequeño. Si el coeficiente (en la escala logarítmica) es, por ejemplo, 0,05, entonces $\exp(0.05) \approx 1.05$ y la interpretación es: un "aumento" del 5% en el resultado para un "aumento" de 1 unidad en $X$ . Sin embargo, si el coeficiente es 0,5, entonces $\exp(0.5) = 1.65$ y lo interpretamos como un "aumento" del 65% en $Y$ para un "aumento" de 1 unidad en $X$ . NO es un aumento del 50%.

Supongamos que transformamos logarítmicamente un predictor: y ~ log(x, base=2) . En este caso, me interesa un cambio multiplicativo en $x$ más que una diferencia bruta. Ahora me interesa comparar participantes que difieren 2 veces en $X$ . Supongamos, por ejemplo, que estoy interesado en medir la infección (sí/no) tras la exposición a un patógeno transmitido por la sangre en diversas concentraciones utilizando un modelo de riesgo aditivo. El modelo biológico puede sugerir que el riesgo aumenta proporcionalmente por cada duplicación de la concentración. Entonces, no transformo mi resultado, sino la estimación de $\beta_1$ se interpreta como una diferencia de riesgo que compara grupos expuestos a diferencias de concentración dos veces superiores de material infeccioso.

Por último, el log(y) ~ log(x) simplemente aplica ambas definiciones para obtener una diferencia multiplicativa comparando grupos que difieren multiplicativamente en los niveles de exposición.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X