15 votos

Para promediar un modelo GLM, ¿promediamos las predicciones en la escala de enlace o de respuesta?

Para calcular las predicciones promediadas del modelo en la escala de respuesta de un MLG, ¿cuál es la "correcta" y por qué?

  1. Calcular la predicción promediada del modelo en la escala de enlace y luego retrotransformar a la escala de respuesta, o
  2. Transforme las predicciones a la escala de respuesta y calcule la media del modelo

Las predicciones son cercanas pero no iguales si el modelo es un GLM. Los diferentes paquetes de R ofrecen opciones para ambos (con diferentes valores por defecto). Varios colegas han argumentado a gritos que el número 1 es incorrecto porque "todo el mundo hace el número 2". Mi intuición dice que #1 es "correcto" ya que mantiene todas las matemáticas lineales (#2 promedia las cosas que no están en una escala lineal). Una simple simulación revela que #2 tiene un MSE muy (¡muy!) menor que #1. Si el nº 2 es correcto, ¿cuál es la razón? Y, si #2 es correcto, ¿por qué mi razón (mantener la matemática lineal lineal) es un razonamiento pobre?

Edición 1: El cálculo de las medias marginales sobre los niveles de otro factor en un MLG es un problema similar a la pregunta que planteo arriba. Russell Lenth calcula las medias marginales de los modelos GLM utilizando la "sincronización" (sus palabras) de #1 (en el paquete emmeans) y su argumento es similar a mi intuición.

Edición 2: Utilizo el promediado de modelos para referirme a la alternativa a la selección de modelos en la que una predicción (o un coeficiente) se estima como la media ponderada de todos o de un subconjunto de "mejores" modelos anidados (véanse las referencias y los paquetes de R más abajo).

Dado $M$ modelos anidados, donde $\eta_i^m$ es la predicción lineal (en el espacio de enlace) para el individuo $i$ para el modelo $m$ y $w_m$ es el peso del modelo $m$ la predicción promediada por el modelo utilizando el número 1 anterior (promedio en la escala de enlace y luego retrotransformación a la escala de respuesta) es:

$$\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big)$$

y la predicción promediada por el modelo utilizando el número 2 anterior (transformando hacia atrás todos los $M$ predicciones y luego la media en la escala de respuestas) es:

$$\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m})$$

Algunos métodos bayesianos y frecuentistas de promediación de modelos son:

  • Hoeting, J.A., Madigan, D., Raftery, A.E. y Volinsky, C.T., 1999. Bayesian model averaging: a tutorial. Statistical science, pp.382-401.

  • Burnham, K.P. y Anderson, D.R., 2003. Model selection and multimodel inference: a practical information-theoretic approach. Springer Science & Business Media.

  • Hansen, B.E., 2007. Least squares model averaging. Econometrica, 75(4), pp.1175-1189.

  • Claeskens, G. y Hjort, N.L., 2008. Model selection and model averaging. Cambridge Books.

Los paquetes de R incluyen BMA , MOMIN , BAS y AICcmodavg . (Nota: no se trata de una pregunta sobre la conveniencia de promediar el modelo en general).

1 votos

Sospecho que la razón por la que tu pregunta no recibe respuestas es que otros lectores, como yo, no entienden tu pregunta. ¿A qué te refieres exactamente con "promediación de modelos"? Por favor, describa un contexto en detalle para que entendamos qué problema está tratando de resolver. Por lo que veo, el paquete emmeans no promedia las predicciones de diferentes modelos.

1 votos

Gracias por preguntar esto y veo que añadir la nota de Russell Lenth confunde mi pregunta. He intentado aclararlo más arriba. El paquete emmeans calculará las medias marginales y el SE sobre los niveles de otro factor y estos estadísticos se calculan en la escala de enlace y luego se transforman hacia atrás. Véase la sección "El modelo es nuestra mejor guía" .

0 votos

Me interesaría mucho cualquier respuesta a esta pregunta. Mientras tanto, un comentario. Ese resultado de MSE se calcula en la escala transformada hacia atrás. Apuesto a que con los mismos resultados de simulación, el MSE, cuando se calcula en la escala de enlace, sería menor con el nº 1 que con el nº 2. La razón es que la media de la muestra es el estimador por mínimos cuadrados de la media de la población, incluso en la escala equivocada.

7voto

Gordon Smyth Puntos 170

La forma óptima de combinar los estimadores o predictores depende de la función de pérdida que se intente minimizar (o de la función de utilidad que se intente maximizar).

En general, si la función de pérdida mide los errores de predicción en la escala de respuesta, entonces el promedio de los predictores en la escala de respuesta es correcto. Si, por ejemplo, se busca minimizar el error cuadrático esperado de la predicción en la escala de respuesta, entonces el predictor de la media posterior será óptimo y, dependiendo de los supuestos de su modelo, eso puede ser equivalente a promediar las predicciones en la escala de respuesta.

Tenga en cuenta que el promedio en la escala del predictor lineal puede funcionar muy mal para los modelos discretos. Suponga que está utilizando una regresión logística para predecir la probabilidad de una variable de respuesta binaria. Si alguno de los modelos da una probabilidad estimada de cero, entonces el predictor lineal para ese modelo será menos infinito. Tomar la media de infinito con cualquier número de valores finitos seguirá siendo infinito.

¿Ha consultado las referencias que enumera? Estoy seguro de que Hoeting et al (1999), por ejemplo, hablan de las funciones de pérdida, aunque quizá no con mucho detalle.

2 votos

Excelente. Gracias por esta respuesta (¡se agradecen otras!). Supongo que "entonces es probable que promediar los predictores sea óptimo o se acerque a ello" es promediar los predictores en la escala de respuesta. La nota logística es especialmente útil.

1 votos

@rvl En cuanto a la linealidad de la función de pérdida, estaba pensando en términos de la función de influencia de la pérdida. Estoy de acuerdo en que es un poco críptico, así que he editado mis comentarios. Tengo que discrepar con tus otros comentarios. Los GLMs se estiman por ML, no por pérdida de error cuadrado. A pesar del nombre, el algoritmo IRLS que es popular para los GLMs no minimiza una suma de cuadrados y la variable de trabajo IRLS implica residuos estandarizados en la escala de respuesta, no en la escala de enlace. En cualquier caso, la estimación y la predicción no son lo mismo y no necesitan tener las mismas funciones de pérdida.

0 votos

@rvl Los valores exactos ajustados a cero ocurren con frecuencia en la regresión logística y han sido discutidos en este foro varias veces.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X