Estoy realizando una prueba de dos muestras (ANOVA de 1 vía con 2 tratamientos), y el objetivo es estimar la relación de las medias de las celdas suponiendo que los datos son logarítmicos. Un enfoque sencillo es registrar la respuesta y ajustar un modelo
$\log Y = b_0 + b_1 * X$
y luego estimar la relación como
$R = e^{b_1}$
Sin embargo, eso da la relación de las medias geométricas de las celdas en lugar de las aritméticas.
Supuse que si ajustaba un modelo lognormal "adecuado" utilizando gamlss
en R o PROC GLIMMIX
en SAS, obtendré la relación de medias aritméticas, pero por alguna razón ambos procedimientos generan la misma pendiente que el $\log Y$ regresión.
Esto es impar porque cuando utilizo este enfoque con la regresión de Poisson o Binomial Negativa, sí obtengo la relación de medias aritméticas. ¿Qué me falta?
P.D.
Creo que he identificado el origen de la confusión, pero no tengo una explicación para ello. Una configuración lognormal con la función de enlace de identidad es:
$\log Y_1 \sim N(b_0, \sigma^2)$
$\log Y_2 \sim N(b_0 + b_1, \sigma^2)$
lo que implica
$\frac{E[Y_2]}{E[Y_1]} = \frac{e^{b_0 + b_1 +\sigma^2/2}}{e^{b_0 + \sigma^2/2}} = e^{b_1}$
Para mí, significa que $e^{b_1}$ debe tener una estimación puntual igual a la relación de las medias aritméticas de la respuesta original.
Por otro lado,
$E[\log Y_1] = b_0$
$E[\log Y_2] = b_0 + b_1$
$b_0$ se estima como media aritmética de $\log Y_1$ , $b_0 + b_1$ se estima como media aritmética de $\log Y_2$ . Por lo tanto, $e^{b_1}$ debería tener una estimación puntual igual a la relación de las medias geométricas para la respuesta original, y así es, dada la salida de esos dos paquetes. ¿Dónde he cometido un error?