El objetivo principal de la regresión lineal es estimar una diferencia media de resultados comparando niveles adyacentes de un regresor. Existen muchos tipos de medias. Estamos más familiarizados con la media aritmética.
$$AM(X) = \frac{\left( X_1 + X_2 + \ldots + X_n \right)}{n}$$
El AM es lo que se estima utilizando MCO y variables sin transformar. La media geométrica es diferente:
$$GM(X) = \sqrt[\LARGE{n}]{\left( X_1 \times X_2 \times \ldots \times X_n \right)} = \exp(AM(\log(X))$$
Prácticamente, una diferencia de GM es una diferencia multiplicativa: se paga un X% de prima en intereses al asumir un préstamo, los niveles de hemoglobina disminuyen un X% tras empezar a tomar metformina, la tasa de fracaso de los muelles aumenta un X% como fracción de la anchura. En todos estos casos, una diferencia media bruta tiene menos sentido.
La transformación logarítmica estima una diferencia de medias geométricas. Si transforma logarítmicamente un resultado y lo modela en una regresión lineal utilizando la siguiente especificación de fórmula: log(y) ~ x
el coeficiente $\beta_1$ es una diferencia media del resultado logarítmico comparando unidades adyacentes de $X$ . Esto es prácticamente inútil, así que exponenciamos el parámetro $e^{\beta_1}$ e interpretar este valor como una diferencia de medias geométricas.
Por ejemplo, en un estudio de la carga viral del VIH tras 10 semanas de administración de TAR, podríamos estimar la media geométrica prepost de $e^{\beta_1} = 0.40$ . Eso significa que cualquiera que sea la carga viral en la línea de base, fue en promedio 60% menos o tenían una disminución de 0,6 veces en el seguimiento. Si la carga era de 10.000 en la línea de base, mi modelo predeciría que sería de 4.000 en el seguimiento; si era de 1.000 en la línea de base, mi modelo predeciría que sería de 400 en el seguimiento (una diferencia menor en la escala bruta, pero proporcionalmente la misma).
Esta es una distinción importante con respecto a otras respuestas : La convención de multiplicar el coeficiente logarítmico por 100 procede de la aproximación $\log(x) \approx 1-x$ cuando $1-x$ es pequeño. Si el coeficiente (en la escala logarítmica) es, por ejemplo, 0,05, entonces $\exp(0.05) \approx 1.05$ y la interpretación es: un "aumento" del 5% en el resultado para un "aumento" de 1 unidad en $X$ . Sin embargo, si el coeficiente es 0,5, entonces $\exp(0.5) = 1.65$ y lo interpretamos como un "aumento" del 65% en $Y$ para un "aumento" de 1 unidad en $X$ . NO es un aumento del 50%.
Supongamos que transformamos logarítmicamente un predictor: y ~ log(x, base=2)
. En este caso, me interesa un cambio multiplicativo en $x$ más que una diferencia bruta. Ahora me interesa comparar participantes que difieren 2 veces en $X$ . Supongamos, por ejemplo, que estoy interesado en medir la infección (sí/no) tras la exposición a un patógeno transmitido por la sangre en diversas concentraciones utilizando un modelo de riesgo aditivo. El modelo biológico puede sugerir que el riesgo aumenta proporcionalmente por cada duplicación de la concentración. Entonces, no transformo mi resultado, sino la estimación de $\beta_1$ se interpreta como una diferencia de riesgo que compara grupos expuestos a diferencias de concentración dos veces superiores de material infeccioso.
Por último, el log(y) ~ log(x)
simplemente aplica ambas definiciones para obtener una diferencia multiplicativa comparando grupos que difieren multiplicativamente en los niveles de exposición.
1 votos
Tengo la sensación de que la interpretación del "incremento porcentual" no es correcta pero no tengo la comprensión suficiente para decir por qué exactamente. Espero que alguien pueda ayudar....Más allá de eso, yo recomendaría modelado utilizar troncos si ayudan a establecer mejor una relación X-Y, pero información ejemplos seleccionados de esa relación utilizando las variables originales. Sobre todo si se trata de un público que no tiene demasiados conocimientos técnicos.
3 votos
@rolando2: No estoy de acuerdo. Si un modelo válido requiere transformación, entonces una interpretación válida normalmente se basará en los coeficientes del modelo transformado. Sigue siendo responsabilidad del investigador comunicar adecuadamente el significado de esos coeficientes a la audiencia. Esta es, por supuesto, la razón por la que nos pagan tanto dinero que, para empezar, nuestros salarios tienen que transformarse logarítmicamente.
1 votos
@BigBucks: Pues míralo de esta manera. Supongamos que tu audiencia no puede entender lo que quieres decir cuando explicas que por cada cambio de 1 en el logaritmo (base 10) de X, Y cambiará en b. Pero supongamos que pueden entender 3 ejemplos usando valores de X de 10, 100 y 1000. En ese momento es probable que se den cuenta de la naturaleza no lineal de la relación. Podría seguir indicando la b global, basada en el logaritmo, pero dar esos ejemplos podría marcar la diferencia.
1 votos
....Aunque ahora que leo tu estupenda explicación a continuación, quizá el uso de esas "plantillas" podría ayudarnos a muchos a aclarar este tipo de problemas de comprensión.
1 votos
Los lectores también pueden echar un vistazo a estos hilos estrechamente relacionados: Cómo interpretar los coeficientes transformados logarítmicamente en regresión lineal , & cuándo-y-porqué-tomar-el-registro-de-una-distribución-de-números .