6 votos

Estimación de la relación de las medias de las celdas en el ANOVA bajo el supuesto lognormal

Estoy realizando una prueba de dos muestras (ANOVA de 1 vía con 2 tratamientos), y el objetivo es estimar la relación de las medias de las celdas suponiendo que los datos son logarítmicos. Un enfoque sencillo es registrar la respuesta y ajustar un modelo

$\log Y = b_0 + b_1 * X$

y luego estimar la relación como

$R = e^{b_1}$

Sin embargo, eso da la relación de las medias geométricas de las celdas en lugar de las aritméticas.

Supuse que si ajustaba un modelo lognormal "adecuado" utilizando gamlss en R o PROC GLIMMIX en SAS, obtendré la relación de medias aritméticas, pero por alguna razón ambos procedimientos generan la misma pendiente que el $\log Y$ regresión.

Esto es impar porque cuando utilizo este enfoque con la regresión de Poisson o Binomial Negativa, sí obtengo la relación de medias aritméticas. ¿Qué me falta?


P.D.

Creo que he identificado el origen de la confusión, pero no tengo una explicación para ello. Una configuración lognormal con la función de enlace de identidad es:

$\log Y_1 \sim N(b_0, \sigma^2)$

$\log Y_2 \sim N(b_0 + b_1, \sigma^2)$

lo que implica

$\frac{E[Y_2]}{E[Y_1]} = \frac{e^{b_0 + b_1 +\sigma^2/2}}{e^{b_0 + \sigma^2/2}} = e^{b_1}$

Para mí, significa que $e^{b_1}$ debe tener una estimación puntual igual a la relación de las medias aritméticas de la respuesta original.

Por otro lado,

$E[\log Y_1] = b_0$

$E[\log Y_2] = b_0 + b_1$

$b_0$ se estima como media aritmética de $\log Y_1$ , $b_0 + b_1$ se estima como media aritmética de $\log Y_2$ . Por lo tanto, $e^{b_1}$ debería tener una estimación puntual igual a la relación de las medias geométricas para la respuesta original, y así es, dada la salida de esos dos paquetes. ¿Dónde he cometido un error?

3voto

AdamSane Puntos 1825

$\log Y = b_0 + b_1 X$

Cuando se omite el término de error, se conduce directamente a una dificultad que, de otro modo, es fácil de evitar. Está claro que la ecuación que has escrito es falsa, de lo contrario no tendrías que hacer la estimación. Dos $y$ serían suficientes para estimar exactamente dos parámetros (dos ecuaciones en dos incógnitas). Se refiere a algo como

$\log Y = b_0 + b_1 X+\varepsilon$

donde $\varepsilon\sim N(0,\sigma^2I)$ ... suponiendo que su $x$ -variable es binaria. (Sin embargo, no estoy seguro de por qué tendrías que escribirla de esta forma, ya que sólo hay dos grupos).

Sin embargo, eso da la relación de las medias geométricas de las celdas en lugar de las aritméticas.

En el supuesto de que se mantenga constante $\sigma^2$ parámetros, la relación de las medias de la población será idéntica a la relación de las medianas de la población (o de las medias geométricas, ya que tanto las medianas como las MG son $\exp(\mu)$ en la lognormal), ya que $e^{\mu_1+\sigma^2/2}/e^{\mu_2+\sigma^2/2}=e^{\mu_1}/e^{\mu_2}=e^{\mu_1-\mu_2}$ .

Como tal, puede simplemente trabajar directamente en la escala logarítmica y trabajar con las diferencias de medias de los logaritmos, y cuando exponga el resultado, seguirá estimando la relación de medias - en el sentido, por ejemplo, de que un intervalo puede ser transformado. (Si quieres un estimador insesgado, puede que tengas que esforzarte un poco más).

1voto

Affine Puntos 1394

La media aritmética exponencial de los valores registrados es la media geométrica de los valores originales. Por lo tanto, cuando se modela $\log Y$ y exponer, se obtiene la media geométrica.

En otras palabras $E[\log Y | X]$ es la media aritmética de $\log Y$ y al exponerlo se obtiene la media geométrica de $Y$ . Esto se traslada a la interpretación de los coeficientes.

Sin embargo, cuando se utiliza una función de enlace logarítmico en un MLG, se está modelando $\log (E[Y|X])$ y exponenciando se obtiene la media aritmética de $Y$

En cuanto a la aplicación práctica a través de gamlss O GLIMMIX Asegúrate de que estás proporcionando los argumentos correctos para modelar exactamente lo que quieres.

1voto

johv Puntos 191

En primer lugar, me resulta difícil entender por qué ha preferido un ANOVA de 1 vía en lugar de una prueba t, ya que no ha buscado interacciones. Como segunda observación, yo comprobaría los supuestos del ANOVA: puede ser que las varianzas de las dos muestras difieran significativamente. Finalmente, en un entorno de regresión lineal con variable dependiente registrada, su problema podría deberse a residuos heteroscedásticos, como en el siguiente ejemplo falso realizado en Stata 13.1/SE: enter image description here

La ligera diferencia entre las dos proporciones de las medias aritméticas se debe a la heteroscedasticidad de los residuos. Como dato adicional, la relación de las medias geométricas es: exp(1,725205)/exp(1,352162)=1,4521468.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X