Para calcular las predicciones promediadas del modelo en la escala de respuesta de un MLG, ¿cuál es la "correcta" y por qué?
- Calcular la predicción promediada del modelo en la escala de enlace y luego retrotransformar a la escala de respuesta, o
- Transforme las predicciones a la escala de respuesta y calcule la media del modelo
Las predicciones son cercanas pero no iguales si el modelo es un GLM. Los diferentes paquetes de R ofrecen opciones para ambos (con diferentes valores por defecto). Varios colegas han argumentado a gritos que el número 1 es incorrecto porque "todo el mundo hace el número 2". Mi intuición dice que #1 es "correcto" ya que mantiene todas las matemáticas lineales (#2 promedia las cosas que no están en una escala lineal). Una simple simulación revela que #2 tiene un MSE muy (¡muy!) menor que #1. Si el nº 2 es correcto, ¿cuál es la razón? Y, si #2 es correcto, ¿por qué mi razón (mantener la matemática lineal lineal) es un razonamiento pobre?
Edición 1: El cálculo de las medias marginales sobre los niveles de otro factor en un MLG es un problema similar a la pregunta que planteo arriba. Russell Lenth calcula las medias marginales de los modelos GLM utilizando la "sincronización" (sus palabras) de #1 (en el paquete emmeans) y su argumento es similar a mi intuición.
Edición 2: Utilizo el promediado de modelos para referirme a la alternativa a la selección de modelos en la que una predicción (o un coeficiente) se estima como la media ponderada de todos o de un subconjunto de "mejores" modelos anidados (véanse las referencias y los paquetes de R más abajo).
Dado $M$ modelos anidados, donde $\eta_i^m$ es la predicción lineal (en el espacio de enlace) para el individuo $i$ para el modelo $m$ y $w_m$ es el peso del modelo $m$ la predicción promediada por el modelo utilizando el número 1 anterior (promedio en la escala de enlace y luego retrotransformación a la escala de respuesta) es:
$$\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big)$$
y la predicción promediada por el modelo utilizando el número 2 anterior (transformando hacia atrás todos los $M$ predicciones y luego la media en la escala de respuestas) es:
$$\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m})$$
Algunos métodos bayesianos y frecuentistas de promediación de modelos son:
-
Hoeting, J.A., Madigan, D., Raftery, A.E. y Volinsky, C.T., 1999. Bayesian model averaging: a tutorial. Statistical science, pp.382-401.
-
Burnham, K.P. y Anderson, D.R., 2003. Model selection and multimodel inference: a practical information-theoretic approach. Springer Science & Business Media.
-
Hansen, B.E., 2007. Least squares model averaging. Econometrica, 75(4), pp.1175-1189.
-
Claeskens, G. y Hjort, N.L., 2008. Model selection and model averaging. Cambridge Books.
Los paquetes de R incluyen BMA , MOMIN , BAS y AICcmodavg . (Nota: no se trata de una pregunta sobre la conveniencia de promediar el modelo en general).
1 votos
Sospecho que la razón por la que tu pregunta no recibe respuestas es que otros lectores, como yo, no entienden tu pregunta. ¿A qué te refieres exactamente con "promediación de modelos"? Por favor, describa un contexto en detalle para que entendamos qué problema está tratando de resolver. Por lo que veo, el paquete emmeans no promedia las predicciones de diferentes modelos.
1 votos
Gracias por preguntar esto y veo que añadir la nota de Russell Lenth confunde mi pregunta. He intentado aclararlo más arriba. El paquete emmeans calculará las medias marginales y el SE sobre los niveles de otro factor y estos estadísticos se calculan en la escala de enlace y luego se transforman hacia atrás. Véase la sección "El modelo es nuestra mejor guía" .
0 votos
Me interesaría mucho cualquier respuesta a esta pregunta. Mientras tanto, un comentario. Ese resultado de MSE se calcula en la escala transformada hacia atrás. Apuesto a que con los mismos resultados de simulación, el MSE, cuando se calcula en la escala de enlace, sería menor con el nº 1 que con el nº 2. La razón es que la media de la muestra es el estimador por mínimos cuadrados de la media de la población, incluso en la escala equivocada.