83 votos

Modelo lineal con respuesta transformada en logaritmo frente a modelo lineal generalizado con enlace logarítmico

En este documento titulado "ELEGIR ENTRE MODELOS LINEALES GENERALIZADOS APLICADOS A DATOS MÉDICOS" los autores escriben:

En un modelo lineal generalizado, la media se transforma, por el vínculo en lugar de transformar la propia respuesta. Los dos métodos de transformación pueden conducir a resultados muy diferentes; por ejemplo, la media de las respuestas transformadas en logaritmos no es la misma que el logaritmo de la respuesta media . En general, los primeros no pueden ser fácilmente transformarse en una respuesta media. Por lo tanto, transformar la media a menudo permite interpretar más fácilmente los resultados, sobre todo en lo que se refiere a los parámetros medios se mantienen en la misma escala que las respuestas medidas.

Parece que aconsejan el ajuste de un modelo lineal generalizado (GLM) con enlace logarítmico en lugar de un modelo lineal (LM) con respuesta transformada logarítmicamente. No entiendo las ventajas de este enfoque, y me parece bastante inusual.

Mi variable de respuesta parece tener una distribución log-normal. Obtengo resultados similares en cuanto a los coeficientes y sus errores estándar con cualquiera de los dos enfoques.

Aún así me pregunto: Si una variable tiene una distribución logarítmica normal, ¿no es la media de la variable transformada logarítmicamente preferible a el logaritmo de la variable media no transformada ¿la media es el resumen natural de una distribución normal, y la variable transformada logarítmicamente se distribuye normalmente, mientras que la propia variable no lo hace?

76voto

Boar Puntos 48

Aunque pueda parecer que la media de las variables transformadas en logaritmos es preferible (ya que así es como se suele parametrizar la log-normal), desde un punto de vista práctico, el logaritmo de la media suele ser mucho más útil.

Esto es especialmente cierto cuando su modelo no es exactamente correcto, y citando a George Box: "Todos los modelos son erróneos, algunos son útiles"

Supongamos que alguna cantidad se distribuye con normalidad logarítmica, por ejemplo, la tensión arterial (¡no soy médico!), y que tenemos dos poblaciones, hombres y mujeres. La hipótesis es que la presión arterial media es mayor en las mujeres que en los hombres. Esto corresponde exactamente a la pregunta de si el registro de la presión arterial media es mayor en las mujeres que en los hombres. No es lo mismo que preguntar si la media de la presión arterial logarítmica es mayor en las mujeres que en los hombres .

No se deje confundir por la parametrización de una distribución en los libros de texto: no tiene ningún significado "real". La distribución logarítmica normal está parametrizada por la media del logaritmo ( $\mu_{\ln}$ ) por comodidad matemática, pero igualmente podríamos optar por parametrizarla por su media y varianza reales

$\mu = e^{\mu_{\ln} + \sigma_{\ln}^2/2}$

$\sigma^2 = (e^{\sigma^2_{\ln}} -1)e^{2 \mu_{\ln} + \sigma_{\ln}^2}$

Obviamente, hacer esto complica terriblemente el álgebra, pero sigue funcionando y significa lo mismo.

Observando la fórmula anterior, podemos ver una diferencia importante entre la transformación de las variables y la transformación de la media. El logaritmo de la media, $\ln(\mu)$ aumenta a medida que $\sigma^2_{\ln}$ aumenta, mientras que la media del log, $\mu_{\ln}$ no lo hace.

Esto significa que las mujeres podrían, en promedio, tener una presión arterial más alta que los hombres, aunque el parámetro medio de la distribución logarítmica normal ( $\mu_{\ln}$ ) es el mismo, simplemente porque el parámetro de la varianza es mayor. Este hecho pasaría desapercibido por una prueba que utilizara el log(Presión arterial).

Hasta ahora, hemos asumido que la presión arterial es realmente logarítmica normal. Si las verdaderas distribuciones no son logarítmicas normales, la transformación de los datos (normalmente) empeorará las cosas, ya que no sabremos qué significa realmente nuestro parámetro "media". Es decir, no sabremos que esas dos ecuaciones para la media y la varianza que di anteriormente son correctas. Usarlas para transformar de un lado a otro introducirá errores adicionales.

33voto

Ely Puntos 1463

Aquí están mis dos centavos de un curso avanzado de análisis de datos que tomé mientras estudiaba bioestadística (aunque no tengo más referencias que los apuntes de mi profesor):

Todo se reduce a si es necesario abordar la linealidad y la heteroscedasticidad (varianzas desiguales) en los datos, o sólo la linealidad.

Señala que la transformación de los datos afecta a los supuestos de linealidad y varianza de un modelo. Por ejemplo, si sus residuos presentan problemas con ambos, podría considerar la posibilidad de transformar los datos, lo que potencialmente podría arreglar ambos. La transformación transforma los errores y, por tanto, su varianza.

En cambio, el uso de la función de enlace sólo afecta a la hipótesis de linealidad, no a la varianza. Se toma el logaritmo de la media (valor esperado) y, por tanto, la varianza de los residuos no se ve afectada.

En resumen, si no tiene un problema con la varianza no constante, sugiere utilizar la función de enlace sobre la transformación, porque no quiere para cambiar su varianza en ese caso (ya está cumpliendo el supuesto).

23voto

retodomax Puntos 51

A continuación trato de dar algunos detalles adicionales a Respuesta de @Meg con alguna notación matemática.

El la parte fija es la misma tanto para la transformación como para el GLM. Sin embargo, el La transformación también afecta a la parte aleatoria mientras que este no es el caso del enlace en el MLG.

Transformación

Cuando hablamos de un modelo lineal gaussiano con respuesta transformada en logaritmo, solemos referirnos al siguiente modelo

$$ \log(y) = \pmb x^T \pmb \beta + \varepsilon \qquad \text{with} \quad \varepsilon \sim N(0, \sigma^2) $$

que también puede escribirse en la escala original de $y$ como

$$ y = \exp(\pmb x^T \pmb \beta) \exp(\varepsilon) $$

En la escala original tenemos

GLM

Cuando hablamos de un MLG gaussiano con $\log$ -enlace solemos asumir el siguiente modelo

$$ y \sim N(\mu, 0) \\ \log(\mu) = \pmb x^T \pmb \beta $$

que también puede escribirse como

$$ y = \exp(\pmb x^T \pmb \beta) + \varepsilon \qquad \text{with} \quad \varepsilon \sim N(0, \sigma^2) $$

En la escala original tenemos

  • un error aditivo
  • el error sigue una distribución normal

-1voto

Lukino Puntos 121

Si la respuesta veritable no es simétrica (no se distribuye como normal) pero la respuesta transformada en logaritmo es normal, entonces se utilizará la regresión lineal sobre la respuesta transformada y el coeficiente del exponente nos dará la razón de la media geométrica.

Si la respuesta veritable es simétrica (distribuida como normal) pero la relación entre el explicativo (X) y la respuesta no es lineal pero el valor esperado logarítmico es función lineal de X, entonces se utilizará el GLM con enlace logarítmico y el coeficiente del exponente nos da la relación de la media aritmética

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X