7 votos

¿Por qué glm() proporciona estimaciones y errores estándar en la escala de enlace?

En R, tanto los parámetros estimados por glm() y sus errores estándar se proporcionan en la escala de enlace, como alguien me aclaró recientemente aquí . Tiene sentido proporcionar tanto los parámetros como su error estándar en la misma escala, pero entonces ¿por qué no mostrar ambos en la escala original de los datos? Me imagino que la mayoría de la gente está interesada en las estimaciones en la escala original y las transforma a la inversa la mayoría de las veces. Aunque los comentarios a esta pregunta abordar la cuestión de cómo para retrotransformar las estimaciones de los parámetros y sus errores estándar, sigo teniendo curiosidad por la razón por qué estas estimaciones son proporcionadas por la función summary() en la escala del enlace y no en la escala original.

14voto

Ben Bolker Puntos 8729

Es difícil saberlo con seguridad, pero hay algunas razones por las que la escala de enlaces es útil.

  • El uso de los errores estándar como resumen de la incertidumbre suele ser más fiable en la escala de enlace, donde el dominio de los parámetros es ilimitado y donde la suposición de que la superficie de verosimilitud es aproximadamente cuadrática ( $\leftrightarrow$ La distribución de muestreo de las estimaciones de los parámetros es aproximadamente Normal) es más probable que sea razonable. Por ejemplo, suponga que tiene un modelo de enlace logarítmico con una estimación (en la escala de enlace) de 1,0 y un error estándar de 3,0. En la escala de enlace, el intervalo de confianza es aproximadamente $1 \pm 1.96 \times 3$ . Si se realiza una retrotransformación, exponenciando el parámetro y multiplicando el error estándar por el parámetro exponenciado (como en esta respuesta ), y luego tratar de construir CIs simétricos, se obtiene $2.718 \pm 1.96 \times 3 \times 2.718$ que incluye valores negativos... si se quiere hacer una retrotransformación, tiene más sentido retrotransformar el intervalos de confianza es decir $\exp(1 \pm 1.96 \times 3)$ .
  • Y lo que es más importante, en el caso del muy común enlace logit, es básicamente imposible retrotransformar con sentido los parámetros hasta la escala de datos (es decir, de logit/log-odds-ratios a probabilidad). Es habitual exponenciar los parámetros para pasar de la escala de log-odds-ratios a la de odds-ratios, pero no se puede pasar de odds-ratios a probabilidades sin especificar un valor de referencia. Es decir, se puede decir en general "la odds ratio asociada al control frente al tratamiento es XXX", pero el cambio en probabilidad de control a tratamiento dependerá de otras covariables (por ejemplo, el odds ratio para mujeres y hombres puede ser el mismo mientras que el cambio en la probabilidad es diferente porque el riesgo de referencia es diferente para mujeres y hombres).

Probablemente, la razón más próxima es que, debido a las cuestiones mencionadas anteriormente, la mayoría de las personas que realizan muchos modelos estadísticos se han acostumbrado a interpretar los parámetros en la escala de enlace; la mayoría de los epidemiólogos y bioestadísticos tienen que dedicar tiempo a aprender sobre los cocientes de probabilidades y los cocientes de logaritmos, y hay muchos papeles escrito sobre su interpretación. Para bien o para mal, R fue escrito por personas que se sienten cómodas interpretando parámetros en la escala de enlaces. Muchos paquetes posteriores, como escoba tienen opciones que exponenciarán los parámetros y los IC para usted (poniéndolos en la escala de datos (recuento) para el enlace log; la escala de odds-ratio para los enlaces logit; y la escala de hazard-ratio para los enlaces cloglog).

0 votos

Muchas gracias. Necesitaré algún tiempo para entender tu segundo punto (no por falta de claridad por tu parte). En cuanto a tu primer punto, me suena, ya que un antiguo colega me explicó una vez el uso de la expansión de Taylor para estudiar la propagación del error. ¿Por qué la expansión de Taylor no da los errores estándar reales? ¿Se debe a que es un método general que carece de supuestos específicos de la situación (en este caso, que el SE debe producir un IC positivo en el caso de los datos de recuento)?

2 votos

La expansión de Taylor da errores estándar razonables (aunque [creo] que no serán exactos si la distribución muestral tiene momentos superiores distintos de cero), pero el principal problema no está en los errores estándar, sino en la traducción de errores estándar a ICs

0 votos

Gracias. Todavía no me queda claro por qué la expansión de Taylor produciría estimaciones razonables de SE, pero éstas podrían traducirse en estimaciones poco razonables de CI. Además, probé diferentes métodos para obtener estimaciones de erorr estándar, y eso abrió toda una nueva lata de gusanos. Creé una pregunta ad hoc: stats.stackexchange.com/questions/355431/ - Salud

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X